바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

국내 학술논문의 동명이인 저자명 식별을 위한 방법

A Method for Same Author Name Disambiguation in Domestic Academic Papers

한국비블리아학회지 / 한국비블리아학회지, (P)1229-2435; (E)2799-4767
2017, v.28 no.4, pp.301-319
https://doi.org/10.14699/kbiblia.2017.28.4.301
신다예 (경북대학교 문헌정보학과 대학원 )
양기덕 ( 경북대학교 문헌정보학과)
  • 다운로드 수
  • 조회수

초록

저자명 식별이란 다른 이름으로 표기된 한 명의 개인을 식별하는 것과 같은 이름을 가진 서로 다른 저자들을 각기 구별된 개인으로 분류하는 것으로, 저자의 연구 목록 및 연구 업적 평가, 특정 분야의 전문가를 검색하거나, 인용색인과 같은 학술 정보 서비스의 원활한 운영을 위해 반드시 해결해야 할 문제이다. 본 연구는 단순 머신러닝만을 사용한 실험 결과와 휴리스틱 방식으로 데이터 셋의 오류 수정 및 정규화 작업을 이후 머신러닝의 처리 과정에 룰 베이스 기반의 규칙을 부여한 저자명 식별 실험의 결과의 비교를 통하여, 인간의 개입이 머신러닝의 단점을 보완하고 저자명 식별 성능을 향상시킬 수 있는지 알아보았다. 그 결과 F-measure 0.1 이상 향상시킨 정규화 된 email기반의 룰 베이스 저자식별 결과로 정규화 과정과 휴리스틱 설정에 필요한 인간의 패턴인식과 추론능력이 머신러닝의 단점을 보완해줄 수 있음에 대한 가능성을 나타내었다.

keywords
저자명 식별, 머신러닝, 룰 베이스 방법, 휴리스틱

Abstract

The task of author name disambiguation involves identifying an author with different names or different authors with the same name. The author name disambiguation is important for correctly assessing authors' research achievements and finding experts in given areas as well as for the effective operation of scholarly information services such as citation indexes. In the study, we performed error correction and normalization of data and applied rules-based author name disambiguation to compare with baseline machine learning disambiguation in order to see if human intervention could improve the machine learning performance. The improvement of over 0.1 in F-measure by the corrected and normalized email-based author name disambiguation over machine learning demonstrates the potential of human pattern identification and inference, which enabled data correction and normalization process as well as the formation of the rule-based diambiguation, to complement the machine learning's weaknesses to improve the author name disambiguation results.

keywords
저자명 식별, 머신러닝, 룰 베이스 방법, 휴리스틱

한국비블리아학회지