Kiwi + 딥러닝 언어모델
“BERT, GPT, BART와 같은 딥러닝 언어모델에서는 크기가 고정된 닫힌 어휘 집합을 사용합니다. 따라서 딥러닝 언어모델에 텍스트를 입력하려면 임의의 텍스트를 고정된 어휘 집합으로 분할하여 변환해주는 토크나이저(Tokenizer)가 필수적입니다. 한국어의 경우 오랫동안 개발되어온 형태소 분석기가 있으나, 기존의 형태소 분석기들은 분석결과를 고정된 개수의 어휘로 출력하는 기능이 없었으므로 형태소 분석기를 토크나이저로 사용할 수 없었습니다. 그래서 한국어의 특징을 고려하지 못함에도 Byte … Read more