한국어 형태소 분석기 kiwi 업데이트. 주목할 만한 기능은 Subword Tokenizer.
서브워드는 기존 사전기반 형태소 분석이 아니라, 모델이 자주 같이 나오는 음절(혹은 다른 단위)을 단어로 인식해 묶는 방식.
BERT, GPT 등 딥러닝 기반 자연어처리 모델에서는 서브워드 토크나이저를 사용 중.
기능 추가/개선
- 둘 이상의 형태소로 더 잘게 분리될 수 있는 형태소를 추가 분리하는 옵션인
splitComplex
도입 - 부사파생접사를 위한
XSM
태그 추가 및 이에 해당하는 형태소-이
,-히
,-로
,-스레
추가 - 조사/어미에 덧붙는 받침을 위한
Z_CODA
태그 추가 및 조사/어미에서 자동으로 Z_CODA를 분절해내는 기능 추가 - 형태 분석 및 언어 모델 탐색 속도 최적화
- 옛한글 문자를 특수 기호로 분리하지 않고 일반 한글과 동일하게 처리하도록 개선
- 형태소 분석 기반의 Subword Tokenizer 구현 (현재 실험적으로 지원 중)
- 문장 분리 성능 개선
2010. 01. 01.
와 같이 공백이 포함된 serial 패턴 처리 보강Dr., Mr.
와 같이 약자 표현의.
이 마침표로 처리되지 않도록 보강- ‘-음’으로 문장이 끝나는 경우를 판별하기 위해
음/EF
형태소 추가 및 모델 보강