꼬꼬마 형태소 분석기 예제
일반적으로, 형태소 분석 알고리즘은 리콜을 높이기 위해 너무 공격적이고 정밀도를 희생하는 측면에서 잘못됩니다. 버섯 줄기를 잘라 칼을 사용 하 여 줄기의 비트를 남길 수 있습니다 또는 모자에 잘라, 줄기 알고리즘 때로는 너무 적거나 너무 많이 제거. 예를 들어, 포터는 의미와 의미를 모두 유래하여 거짓 동등성을 만듭니다. 한편, 포터는 거위를 거위에게 줄기로 하고, 거위는 이 두 단어가 동등해야 한다. 포터 줄기에서 언더 스템의 예는 “동창”→ “동창”, “동창”→ “동창”, “동창”/ “동창”/ “동창”→ “동창”→ “졸업생”입니다. 이 영어 단어는 라틴어 형태를 유지하므로 이 거의 동의어는 수축되지 않습니다. 형태소 분석은 웹 검색 엔진과 같은 쿼리 시스템의 일반적인 요소입니다. 그러나 영어 쿼리 시스템에 대한 형태소 분석의 효과는 곧 다소 제한적인 것으로 밝혀졌으며, 이로 인해 초기 정보 검색 연구원들은 일반적으로 형태소 분석과 관련이 없다고 판단했습니다. [11] 줄기보다는 n-grams를 검색하는 것에 기초한 대체 접근법을 대신 사용할 수 있다. 또한, 형태소 분석은 영어보다 다른 언어에서 더 큰 혜택을 제공 할 수 있습니다.
[12] [13] Paice-Husk Stemmer는 1980년대 후반 랭커스터 대학의 크리스 D 파이스(Chris D Paice)에 의해 개발되었으며, 반복적인 형태소 분석기이며 외부에 저장된 형태소 분석 규칙 세트를 특징으로 합니다. 표준 규칙 집합은 `강력한` 형태소 분석기를 제공하며 결말의 제거 또는 교체를 지정할 수 있습니다. 대체 기술은 부분 일치를 다시 코딩하거나 제공하기 위해 프로세스에서 별도의 단계가 필요하지 않습니다. Paice는 또한 과다 형태소분석 및 언더스템프 링 오류를 계산하여 스템머를 비교하기 위한 직접적인 측정을 개발했습니다. 가장 초기 의 형태소 분석 알고리즘 중 하나는 영어에 대한 포터 스템머입니다, 이는 여전히 오늘날 권장 영어 줄기입니다. 마틴 포터는 이후 형태소 분석 알고리즘을 만들기 위한 Snowball 언어를 만들었으며 Elasticsearch에서 사용할 수 있는 여러 줄기 분석기는 Snowball로 작성되었습니다. 스노우볼을 만드는 데는 두 가지 주요 이유가 있었습니다. 하나는 영어 이외의 언어에 대한 쉽게 사용할 수있는 형태소 분석 알고리즘의 부족이었다. 다른 하나는 포터 형태소 분석 알고리즘의 정확한 구현을 촉진하는 데 실패한 것에 대한 의식이었습니다. 이러한 알고리즘 형태소 분석기는 즉시 사용할 수 있고, 빠르며, 메모리를 거의 사용하지 않으며, 일반 단어에 잘 작동한다는 장점이 있습니다.단점은 그들이 같은 불규칙한 단어에 잘 대처하지 않는다는 것입니다, 그리고 오전, 또는 마우스와 마우스. 많은 상업 회사는 적어도 1980 년대부터 형태소 분석기를 사용하고 많은 언어로 알고리즘 및 어휘 줄기를 생산하고있다. [15] [16] 예를 들어, 우리는 포터 형태소 분석 및 워드넷 레뮤지스의 등가 클래스를 후보자로 사용하고, 단어 유사성을 추정하여 정밀도를 향상시키기 위해 자동 또는 편집 -을 추가 처리를 사용할 수 있습니다.