한국어 색인처리 방법비교
색인방법 |
개요 |
장점 |
단점 |
어절기반 방식 |
문서의 각 어절들에 대해 색인어의 일부분으로서 가치가 없는 비색인 분절 즉, 조사, 어미, 접미사 등의 음절들을 절단하여 원문에 가까운 형태로 색인어를 추출하는 방식 |
§ 시스템 구현 용이 § 색인 과정 간단 § 영어권 색인에 적합 |
§ 비색인 분절 절단시 오류 가능성 § 매우 낮은 재현율, 낮은 정확율 § 복합명사 처리 취약 |
형태소분석 방식 |
문장 중의 각 어절을 명사, 조사, 부사 등의 형태소 단위로 분리한 후, 문서의 내용 표현에 적절한 명사 또는 명사구들을 추출하는 방식 |
§ 복합명사 처리 양호 § 재현율, 정확율 일정 수준 제공 |
§ 형태소 해석을 위한 규칙 복잡 § 형태소 해석 결과의 애매성 § 미등록어, 비문법적인 어절 등으로 부정확한 색인어 추출 가능성 높음 § 형태소사전과 같은 언어정보들의 개발 및 유지관리 부담 § 색인속도 느림 |
n-gram 방식 |
n-gram이란 인접한 n개의 음절을 의미하며, 이 방식은 문장내의 각 어절에 대하여 어절 단위의 색인법을 적용하고, 그 결과로 생성된 분절에 n-gram방법을 적용함으로써 색인어들을 추출하는 방식 (2-gram 예) “정보검색” => “정보”, “보검”, “검색” |
§ 복합명사 처리 양호 § 높은 재현율 § 복잡한 문장 해석 규칙 및 언어정보 개발 불필요 § 유지관리 부담 없음 § 형태소단위 색인법과 유사한 검색 효과 제공 |
§ 불필요한 색인어 추출 가능성 높음 § 낮은 정확율 |
n n-Gram 기반의 색인 방법
n-gram 기반의 색인 방법은 기존의 어절단위 색인법과 n-gram 방법의 결합에 의해 구성된다. <표1>은 이러한 방법의 색인 과정을 간략히 보여주며, 각 단계에 대한 자세한 설명은 다음과 같다.
1. 문서나 질의를 색인하기 위해 먼저 빈칸, 마침표, 쉼표, 따옴표 등을 구분자로 하여 모든 어절들을 추출한다.
2. 불용어 리스트를 이용하여 색인어로서 무의미한 어절들을 제거한다.
3. 나머지 어절들에 대해 최장 일치법을 이용하여 비색인 분절을 절단한다. 비색인 분절은 단일조사(-가, -이, -를, -으로, -부터), 복합조사(-으로부터, -에서부터), 조사, 어미, 접미사 등이 결합된 다양한 형태의 음절들을 포함한다. 예를 들면 다음과 같은 어절들에서 ‘색인’ 뒤에 오는 모든 문자열이 여기에 포함된다.
색인을 색인하여 색인하였는데
색인되어 색인되었으니 색인임을
색인이기에 색인이라고 색인이지만
4. 생성된 각각의 색인 분절에 대해 n-gram 방법을 적용한다. n-gram이란 인접한 n개의 음절을 말한다. 예를 들면, ‘프로그래밍’이란 어절에 대해 2-gram은 ‘프로’, ‘로그’, ‘그래’, ‘래밍’이며, 3-gram은 ‘프로그’, ‘로그래’, ‘그래밍’이다. 색인 분절의 음절 수가 n보다 큰 경우에는 색인 분절을 여러 개의 n-gram들로 분리하고, 작은 경우에는 색인 분절 전체를 하나의 n-gram으로 취한다. <표2>는 n-gram기반의 색인 방법을 이용한 색인 과정의 예를 보여준다.
<표1> n-Gram 기반의 색인 과정
단계 1 : 문서나 질의 내의 모든 어절들을 인식한다. 단계 2 : 불용어를 제거한다. 단계 3 : 각 어절에서 비색인 분절들을 절단한다. 단계 4 : 나머지 색인 분절을 n-gram들로 분할하여 색인어로 선정한다. |
<표2> n-Gram 기반 색인 방법의 예 (2-gram)
내년 중반부터 정보검색서비스가 실시된다. |
단계 1 : 문장 내의 어절 인식 내년, 중반부터, 정보검색서비스가, 실시된다 단계 2 : 불용어 제거 정보검색서비스가, 실시된다 단계 3 : 비색인 분절의 절단 정보검색서비스, 실시 단계 4 : 2-Gram의 적용 정보, 보검, 검색, 색서, 서비, 비스, 실시 |
n n-Gram 기반 색인 방법의 장단점
n-gram 기반의 색인 방법은 검색 효과의 측면에서 다음과 같은 장점을 갖는다.
1. n-gram 기반의 색인법은 어절 단위 색인법을 이용할 때의 절단 오류로 인한 파급효과를 완화한다. 예를 들면, 어절 ‘벨기에로서는’과 ‘벨기에’는 어절 단위 색인 과정에서 ‘벨기에’와 ‘벨기’로 색인된다. 여기에 2-gram 방법을 적용하면 모두 ‘벨기’의 공통된 색인어가 생성된다.
2. n-gram 기반의 색인 방법은 복합 명사의 띄어쓰기 문제를 완화한다. 예를 들면, 아래와 같은 문서 d1, … , d5와 질의 q1, q2가 있다고 가정하자.
d1 : 과학기술정보 유통의
d2 : 과학기술 정보유통의
d3 : 과학 기술 정보 유통의
d4 : 과학기술 분야의 정보를 유통하기 위한
d5 : 과학과 기술의 정보를 유통하기 위한
q1 : 과학기술정보유통에 관한
q2 : 과학 기술 정보 유통에 관한
2-gram 기반의 색인 방법은 이들 문서와 질의에 대해 다음과 같은 색인어들을 생성한다.
d1 : {과학,학기,기술,술정,정보,유통}
d2 : {과학,학기,기술,정보,보유,유통}
d3 : {과학,기술,정보,유통}
d4 : {과학,학기,기술,분야,정보,유통}
d5 : {과학,기술,정보,유통}
q1 : {과학,학기,기술,술정,정보,보유,유통}
q2 : {과학,기술,정보,유통}
이와 같은 경우 질의 q1과 q2의 복합 명사 띄어쓰기가 서로 다르지만, 유사도를 계산하는 벡터 공간 모델에서 검색을 수행할 때, 모든 문서들은 두 질의에 대하여 높은 유사도를 갖는 문서로서 검색될 가능성이 크다.
3. 한글 문서들을 살펴보면 아래의 예와 같이 단일 명사의 뒤에 한 글자의 명사가 붙거나 또는 파생 접사가 붙어서 형성된 명사들을 많이 발견할 수 있다. 형태소 단위 색인법에서는 이러한 명사들 보통 단일 형태소로 취급하여 색인어로 추출한다.
가공기 가공력 가공도 가공량 가공면
가공물 가공법 가공부 가공비 가공사
가공성 가공상 가공수 가공압 가공업
가공열 가공용 가공률 가공재 가공칩
가공품 가공형 가공자 가공학 …
이러한 경우 ‘가공’의 질의가 입력되면, 관련된 많은 문서들이 검색되지 않을 수 있다. 제안하는 색인 방법은 이와 같은 경우에 관련 문서의 검색을 도와 준다.
4. n-gram 기반의 색인 방법은 철자 오류나 일관성이 없는 외래어 표기 문제를 적절히 극복할 수 있다. 예를 들면, 문서 d1이 ‘정보검섹’으로 잘못 표기된 어절을 포함하고, 사용자는 ‘정보검색’으로 질의 q1을 입력한다고 가정하자. 2-gram 기반의 색인법은 문서 d1과 질의 q1에 대해 각각 다음과 같은 벡터 표현을 형성한다.
d1 : {(정보, w1), (보검, w2), (검섹, w3)}
q1 : {(정보, w4), (보검, w5), (검색, w6)}
따라서 문서에 ‘검섹’의 철자 오류가 있더라도 문서는 질의의 결과로 검색될 가능성이 크다. 서로 다른 외래어 표기의 문제도 이와 유사하다. 사용자마다 ‘database’를 ‘데이터베이스’로 표기하기도 하고 ‘데이타베이스'로 표기하기도 한다. 어떤 식으로 문서에 표기되어 있든 n-gram 기반의 색인법을 이용하는 시스템에서는 서로 다른 표기법이 사용된 문서가 비슷한 수준의 유사도를 갖고 검색될 가능성이 크다.
n-gram 기반의 색인 방법의 단점은 다음과 같다.
1. 의미 없는 n-gram의 생성으로 인해 질의에 부적합한 문서들이 검색될(false match) 가능성이 있으며, 특히 가중치 기법과 관련하여 이들 부적합 문서들이 상위의 순위를 부여 받을 수 있다. 예를 들어, 다음과 같은 문서 d1과 질의 q1이 있다고 가정하자.
d1 : 자방친 및 화분친에 따라 감자 반수체 유기효율이 컸으며
q1 : 배기관 형상에 따른 2 행정 기관의 소기효율 및 성능 예측
이때 문서 d1의 ‘유기효율’과 질의 q1의 ‘소기효율’에 대해 제안하는 색인 방법은 각각 {유기, 기효, 효율}과 {소기, 기효, 효율}의 색인어를 형성한다. 여기에서 ‘기효’가 일치하므로 문서 d1은 질의 q1에 관련이 없는데도 검색 결과로서 출력될 수 있으며, 만일 ‘기효’가 높은 가중치 값을 부여받는다면 문서 d1과 질의 q1사이의 유사도가 커져 문서 d1이 상위의 순위를 부여받을 수 있다.
2. 제안하는 색인 방법에서는 추출되는 색인어의 수가 많아지며, 이를 위해 필요한 부가적인 저장 공간이 늘어날 수 있다.
n 검색시스템 운영개선을 위한 제안
정보검색시스템의 목적은 단순히 사용자 질의를 만족하는 문서들의 검색뿐만 아니라, 문서와 질의 사이의 유사도 계산을 통해 검색되는 문서들에 순위를 부여함으로써 사용자들이 필요로 하는 정보를 얻는데 소모되는 시간을 최소화하는 역할도 포함한다. 문서 순위를 결정할 수 있는 벡터 공간 모델은 문서와 질의를 색인어의 벡터로서 표현하고, 두 벡터들의 내적을 통해 유사도를 계산한다. 따라서 색인 방법은 검색되는 문서들의 순위 결정에 영향을 주는 중요한 요소 중의 하나이다.
기존의 한글 자동 색인을 위한 어절 단위 색인법은 구현이 간단한 반면, 복합 명사의 띄어쓰기 문제를 적절히 처리할 수 없는 문제점을 지니고 있다. 한편, 형태소 단위 색인법은 단일 명사를 추출함으로써 복합 명사의 띄어쓰기 문제를 극복할 수 있고, 검색 효과가 좋은 것으로 알려지고 있다. 그러나 형태소 해석이나 구문해석을 위한 많은 언어 정보들의 개발을 요구한다.
어절 단위 색인법과 n-gram 방법을 결합한 n-gram 기반의 색인법은 복합 명사의 띄어쓰기 문제를 완화하며, 형태소 단위 색인법에서와 같은 언어 정보의 개발도 거의 요구하지 않는다. 또한 비색인 분절의 절단 오류나 하나의 단일 형태소로 취급되는 복합 명사들로 인한 문제를 완화할 수 있고, 실제 문서에서 많이 발견되는 철자 오류나 일관성이 없는 외래어 표기 문제에도 대처할 수 있다.
'기록... > 기록물 DB구축에 관해' 카테고리의 다른 글
기록물DB 제안서 작성지침(고객요청) (0) | 2009.03.18 |
---|---|
도면의 종류 (0) | 2009.03.11 |
기록물 DB구축 일정현황 (0) | 2009.03.02 |
건축물대장 정비지침 용어 (0) | 2009.02.28 |
건축물대장의 이해와 관리 (0) | 2009.02.28 |