바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

인용분석에서의 모호한 저자명 식별을 위한 방법들에 관한 고찰

Review of Author Name Disambiguation Techniques for Citation Analysis

한국비블리아학회지 / 한국비블리아학회지, (P)1229-2435; (E)2799-4767
2012, v.23 no.3, pp.5-17
https://doi.org/10.14699/kbiblia.2012.23.3.005
김현정 (서울여자대학교 사회과학대학 문헌정보학과)
  • 다운로드 수
  • 조회수

초록

서지 데이터베이스를 이용한 인용분석연구를 진행하기 이전에 이루어져야 할 과정 중 하나가 모호한 저자명의 식별이라고 할 수 있다. 대부분 서지 데이터베이스에는 저자의 성(姓)과 이름의 이니셜만을 표기하는 경우가 많은데, 중국이나 한국 등 아시아 국가 출신의 연구자들은 같은 성을 가진 사람이 매우 많고, 이름의 이니셜까지 같은 경우도 상당히 많아서 이름검색만으로 찾고자 하는 저자를 식별해내기가 쉽지 않기 때문이다. 아시아 국가 출신의 학자들이 유난히 많은 연구분야들에서는 이러한 문제들이 더더욱 큰 문제가 되며, 인용분석 뿐만 아니라 일반적인 정보검색에서도 매우 중요한 요인이 될 수 있다. 모호한 저자명을 식별해내는 방법에는 자동화된 알고리듬을 이용하여 각각의 저자를 식별해내는 방법과 저자 클러스터링을 얻어내기 위해 일일이 수작업으로 데이터셋을 구축하는 방법, 그리고 두 가지 방법을 혼용한 반자동화된 방법 등이 있다. 본 연구는 "모호한 저자명 식별"을 위해 개발된 여러 가지 방법들을 고찰해보기로 한다.

keywords
모호한 저자명 식별, 인용분석, 정보검색, 알고리듬, 동명이인

Abstract

In citation analysis, author names are often used as the unit of analysis and some authors are indexed under the same name in bibliographic databases where the citation counts are obtained from. There are many techniques for author name disambiguation, using supervised, unsupervised, or semisupervised learning algorithms. Unsupervised approach uses machine learning algorithms to extract necessary bibliographic information from large-scale databases and digital libraries, while supervised approaches use manually built training datasets for clustering author groups for combining them with learning algorithms for author name disambiguation. The study examines various techniques for author name disambiguation in the hope for finding an aid to improve the precision of citation counts in citation analysis, as well as for better results in information retrieval.

keywords
모호한 저자명 식별, 인용분석, 정보검색, 알고리듬, 동명이인

한국비블리아학회지