Kiwi + 딥러닝 언어모델

“BERT, GPT, BART와 같은 딥러닝 언어모델에서는 크기가 고정된 닫힌 어휘 집합을 사용합니다. 따라서 딥러닝 언어모델에 텍스트를 입력하려면 임의의 텍스트를 고정된 어휘 집합으로 분할하여 변환해주는 토크나이저(Tokenizer)가 필수적입니다. 한국어의 경우 오랫동안 개발되어온 형태소 분석기가 있으나, 기존의 형태소 분석기들은 분석결과를 고정된 개수의 어휘로 출력하는 기능이 없었으므로 형태소 분석기를 토크나이저로 사용할 수 없었습니다. 그래서 한국어의 특징을 고려하지 못함에도 Byte Pair Encoding이나 SentencePiece 등을 토크나이저로 사용하고 있는 상황입니다.”

"Kiwi는 0.15버전에서부터 형태소 분석과 Subword 분절 기능을 통합한 Unigram 토크나이저를 제공합니다. 이 저장소에서는 Kiwi를 기반으로한 토크나이저의 성능을 실험하고, 실제로 이 토크나이저를 기반으로 학습한 딥러닝 모델의 특징을 분석해보고자 합니다.”

https://github.com/bab2min/kiwi-farm

Leave a Comment