CCLUE 古文语言理解测评基准

https://cclue.top/guwen-models.htmlhttps://github.com/Ethan-yt/guwen-modelshttps://huggingface.co/ethanyt/guwen-punc Ethan(https://github.com/Ethan-yt) 개인이 만든 모델(BEIJING INSTITUTE OF TECHNOLOGY 출신, 현재 Yuanfudao 근무) 페이지 로딩도 느리고, 처리 속도도 느림. 표점 표기의 정확도가 높다고 하기 어려운건 둘째 치고, 번체자를 간체자로 변경함. 이건 사용이 어려울듯 함. 원문출처: https://sillok.history.go.kr/id/kea_10009013_002 원문: ○平安道助戰節制使康純辭, 上引見。 純啓曰: “本道受敵初面, 且軍人鮮少, 氷合之時, 尤爲可慮, 本道子弟, 宿衛於京者, 竝令入送防戍何如?” 上曰: “予意亦然。 凡防禦之備, 鍊軍之事, 常加敦勉, 毋或少怠。 且北方寒, 甚慮若等冒寒戍邊。 須造土室, … Read more

고시문단구 – 古詩文斷句 v3.1

https://seg.shenshen.wiki/ 북경사범대학(北京师范大学, Beijing Normal University)에서 구축한 표점 및 객체명 식별 플랫폼. 나름 간단하게 사용할 목적이라면 괜찮다고 보임. 긴 문장도 잘 소화해 내기에, 吾与点古籍自动整理平台 보다 사용성이 높아 보임. 원문출처: https://sillok.history.go.kr/id/kea_10009013_002 원문: ○平安道助戰節制使康純辭, 上引見。 純啓曰: “本道受敵初面, 且軍人鮮少, 氷合之時, 尤爲可慮, 本道子弟, 宿衛於京者, 竝令入送防戍何如?” 上曰: “予意亦然。 凡防禦之備, 鍊軍之事, 常加敦勉, 毋或少怠。 且北方寒, 甚慮若等冒寒戍邊。 須造土室, 令軍士入處, 毋致凍傷。” 테스트용전처리: 平安道助戰節制使康純辭上引見純啓曰本道受敵初面且軍人鮮少氷合之時尤爲可慮本道子弟宿衛於京者竝令入送防戍何如上曰予意亦然凡防禦之備鍊軍之事常加敦勉毋或少怠且北方寒甚慮若等冒寒戍邊須造土室令軍士入處毋致凍傷 테스트 결과: … Read more

고적자동정리플랫폼 – 吾与点古籍自动整理平台

http://wyd.pkudh.xyz/ 북경대학교 디지털인문학센터(北京大学数字人文研究中心)에서 만든 고적 자동 정리 플랫폼(古籍自动整理平台) 하루 사용량 제한와 글자수 제한이 존재하지만, 테스트 결과 양호한 결과를 얻었음. 특히 따로 학습을 하지 않았을 것으로 생각되는 한국식 한문에도 나름 괜찮은 결과였던 것이 인상적임. + 테스트 01 – 조선왕조실록 원문출처: https://sillok.history.go.kr/id/kea_10009013_002 원문: ○平安道助戰節制使康純辭, 上引見。 純啓曰: “本道受敵初面, 且軍人鮮少, 氷合之時, 尤爲可慮, 本道子弟, 宿衛於京者, 竝令入送防戍何如?” 上曰: “予意亦然。 凡防禦之備, 鍊軍之事, … Read more

kiwi 형태소 분석기(0.15.0 업데이트)

한국어 형태소 분석기 kiwi 업데이트. 주목할 만한 기능은 Subword Tokenizer. 서브워드는 기존 사전기반 형태소 분석이 아니라, 모델이 자주 같이 나오는 음절(혹은 다른 단위)을 단어로 인식해 묶는 방식. BERT, GPT 등 딥러닝 기반 자연어처리 모델에서는 서브워드 토크나이저를 사용 중. 기능 추가/개선 https://github.com/bab2min/Kiwi/releases/tag/v0.15.0