한국대학신문, “단국대 한문교육연구소, 고문헌 한자 90% 인식 인공지능 개발”, 2023.01.07
단국대 부설 한문교육연구소(소장 김우정 교수)와 자율형블록체인융합연구소(소장 박용범 교수)는 고문헌에 표기된 흘림체 글자 등 복잡한 한자에 인공지능 기술을 적용, 한자를 자동으로 분할하고 인식하는 모델을 개발하는데 성공했다고 발표했다. 이를 바탕으로 3억 자 이상의 한자 이미지를 데이터베이스로 구축, 사용자가 사용할 경우 전체 한자의 90% 이상을 판별할 수 있다.
연구소는 데이터베이스 구축을 위해 개인 문집류 1259종과 조선왕조실록, 일성록(日省錄) 등에 표기된 1만593종의 글자를 확인했고 이를 통해 3억 80만여 자의 한자 자형 이미지 추출에 성공했다.
이 프로그램은 금속활자본, 목활자본, 목판본, 납으로 만든 연활자본 등 다양한 판종을 기준으로 개발됐다. 정제된 필사본에 대해서는 뛰어난 해석 성능을 보였지만 초서나 행서 등 흘림서체에 대해서는 일치율을 높여야 하는 과제도 남아 있다.
이 프로젝트는 단국대 한문교육연구소의 ‘한국 역대 한자 자형 자전(字典) 데이터베이스 구축 및 활용’ 과제로 수행해 2019년부터 2022년까지 3년간 한국학중앙연구원의 지원금 10억 5천만 원이 투입됐다. 프로젝트 추진을 위해 자율형블록체인융합연구소가 한자 자형 분할·추론 모델을 개발해 부설 동양학연구원이 세계 최대 규모 사전인 한한대사전(漢韓大辭典)의 자형 정보를 제공했다.
단국대는 조만간 한국학중앙연구원의 허가를 받아 포털에 서비스를 제공한다는 계획이다.
바로: 조만간 웹서비스 형태로 공개될 듯한데…API까지 제공하면 사랑합니다!!!
Good.