심소희(이화여대) / 훈민정음으로 기록된 근세시기 동아시아 언어 자료 DB 구축 / 2024 인문사회연구소지원사업

심소희(이화여대) / 훈민정음으로 기록된 근세시기 동아시아 언어 자료 DB 구축 / 2024 인문사회연구소지원사업 예비 선정

https://www.nrf.re.kr/biz/notice/view?menu_no=362&page=&nts_no=225837&biz_no=241&target=&biz_not_gubn=result&search_type=NTS_TITLE&search_keyword1=

연구목표:

  1. 연구 목표
    본 연구는 근세시기(15-19세기)에 훈민정음으로 발음이 표기된 동아시아 언어(중국어⋅일본어⋅만주어⋅몽골어⋅산스크리트어) 자료를 데이터베이스로 구축하여, 디지털 기반 인문학 연구의 토대를 마련하는 것을 연구 목적으로 한다.
    한문 원전에 훈민정음으로 한자음을 달아놓은 諺解類 서적과 중국어⋅일본어⋅만주어⋅몽골어 譯學書, 근세시기 중국의 한자음과 한국의 한자음을 동시에 기록한 韻書類 서적, 산스크리트어를 함께 기록한 佛經諺解는 근세시기 동아시아 여러 언어의 어음⋅문자⋅어휘⋅문화 정보를 종합적으로 담고 있는 귀중한 기록물이다. 본 연구에서는 15-19세기 사이에 훈민정음으로 기록한 언해류(112책), 운서(9책), 역학서(34책) 등 총 152책(약 4만 쪽)에 대해 ①원문 텍스트 DB ②어음 정보 DB ③음성 데이터 DB 등 총 3종의 데이터베이스를 구축하여, 디지털 환경에서 누구나 수월하게 활용할 수 있는 연구 자료로 제공하고자 한다.
  2. 연구의 필요성
    첫째, 동아시아 여러 언어의 ‘어음’ 및 ‘문자 표기’ 변화의 역사를 규명할 수 있다. 역학서는 당시의 입말을 보여주는 세계적으로 유일한 기록이다. 또한 운서는 수록 한자의 표준음을 반영하고, 언해류는 당시 글에서 쓰이던 문언음을 반영하고 있다. 이와 같이 훈민정음으로 기록된 동아시아 언어자료는 당시의 입말과 글말을 반영한 언어사의 寶庫라고 할 수 있다. 연구자들은 이 자료들을 통해 15-19세기 사이에 동아시아의 여러 언어에서 발생한 ‘어음’ 및 ‘문자 표기’의 변화 과정을 파악할 수 있다. 근세시기의 언어자료로 구축한 데이터베이스는 오늘날 한국어⋅중국어⋅일본어 사전이 보여주지 못하는 이전 시기의 어음 및 자형을 보여줌으로써 이들 언어의 변천을 거시적으로 조망할 수 있게 해줄 것이다.
    둘째, 근세시기 조선과 이웃 국가의 상호 인식 및 교류의 역사를 고찰할 수 있다. 조선시대 사역원에서 편찬한 중국어⋅일본어⋅만주어⋅몽골어 등의 역학서에는 상대 국가에 대한 인식의 변화에 따라 문장이나 단어가 수정된 사례가 적지 않다. 예를 들어, 18세기에 편찬된 󰡔重刊老乞大諺解󰡕에서는 중국어를 漢語라고 부르지 않고, 표준말이라는 뜻의 官話라고 쓰기 시작했다. 몽골어, 만주어 어휘집인 󰡔蒙語類解󰡕, 󰡔同文類解󰡕에는 중국어 어휘집인 󰡔譯語類解󰡕보다 官職, 官府, 軍事 관련 어휘가 더 많이 등장한다. 이것은 당시 조선에 몽골이나 만주와의 정치, 외교 관계가 매우 중요했음을 짐작하게 한다. 또 󰡔老乞大󰡕, 󰡔朴通事󰡕를 통해 조선의 인삼 수출이나 중국의 비단 수입, 우리나라 漆器의 중국 전래, 중국 燒酒의 우리나라 전래, 의복, 관모, 신발 등의 전래 양상 등을 알 수 있다. 즉, 데이터로 만들어진 언어자료에 대한 정량적 연구를 통해 상호 국가에 대한 인식을 고찰할 수 있고, 근세 동아시아 국가 간의 교류사를 파악할 수 있을 것이다.
    셋째, 연구 자료의 공여자로서 국제 학술계에 기여할 수 있다. 본 연구소에서 구축하고자 하는 데이터베이스는 국내뿐 아니라 해외 학자들도 효율적으로 근세시기 동아시아 언어와 문화를 연구할 수 있도록 도움을 줄 수 있다. 이것을 통해 국내⋅외 학자들의 다양한 협업이 가능해질 것이고, 더 나아가 21세기 아시아 지역 지성 연대의 가교 역할도 담당할 수 있을 것이다.

기대효과:

본 연구의 결과로 구축된 데이터베이스는 훈민정음으로 기록된 근세시기 동아시아 언어자료에 대한 최초의 포괄적 집대성으로, 전 세계 연구자들이 활용할 수 있도록 만들어질 것이다. 이를 통해 우리의 귀중한 기록 문화유산에 새로운 생명을 불어넣어 전 세계에 널리 알리고, 우리나라의 학술적 위상을 제고하는 효과를 기대할 수 있다. 또한 본 연구 결과로 구현된 동아시아 언어자료 데이터베이스는 국내⋅외 학자들이 더 활발히 교류하는 촉진제가 될 것이며, 아시아의 연대감을 높여 21세기 아시아 시대 안에서 우리나라가 학문적 중심으로 거듭나도록 기여할 것이다. 본 연구는 다음과 같은 효과를 기대할 수 있다.
1) 동아시아의 언어⋅역사⋅문화 연구에 활용: 총 152책의 고문헌이 디지털 텍스트로 변환되고, 수록된 모든 문자의 어음 정보가 DB로 제공된다면, 15-19세기 한국어⋅중국어⋅일본어⋅만주어⋅몽골어⋅산스크리트어에 대한 언어학적 연구 및 각 언어에 대한 공시적⋅통시적 연구가 가능할 것이다. 총 9종 운서와 어음 정보 DB는 한국 한자음과 중국 한자음 연구에 획기적인 수월성을 제공하여, 성운학, 문자학 방면의 학술 발전에 기여할 것이다. 언해류 문헌에는 중국의 고전 및 불경이 한자로 기록되어 있기 때문에, 본 연구의 결과물은 중국 문헌학, 불교학 등의 연구 자료로 활용할 수 있다. 이 밖에도 어휘 분석을 통해 동아시아 지역의 문화, 교류의 역사를 연구하는 데 활용될 것이다.
2) 훈민정음 및 한글 연구에 활용: 본 연구에서 구축한 데이터는 동아시아 여러 언어자료에 대한 것일 뿐 아니라, 15-19세기에 사용된 훈민정음에 대한 데이터이기도 하다. 따라서 본 연구의 결과물은 훈민정음 및 한글 연구에 활용될 수 있는 양질의 자료라고 할 수 있다. 예를 들어 근세시기에는 외국어를 표기하기 위해 훈민정음의 자음이나 모음의 기본 형태를 변형하거나 조합하는 방식을 사용했는데, 본 연구에서 구축하고자 하는 고도의 어음 정보 DB를 통해 이런 현상을 수월하게 파악하고 정량적 연구를 진행할 수 있다.
3) 이체자의 수집과 정리, 새로운 유니코드 한자 등록에 활용: 우리나라 고문헌에서는 현재 유니코드 한자로 등록되어 있지 않은 이체자가 다수 발견된다. 특히 입말을 기록한 역학서 등의 자료에 이체자가 많은 편이다. 이체자를 제대로 이해하지 못하면 문장을 오독할 수 있기 때문에 이체자에 대한 정확한 이해는 문헌 연구에 있어서 매우 중요한 의미를 가진다. 본 연구의 과정에서 발견되는 이체자들을 수집하여 정확한 음가와 의미를 확정하고, 더 나아가 이들을 유니코드 한자로 등록한다면, 향후 고문헌을 디지털 텍스트로 변환하는 작업에 도움이 될 것이다. 또 수집된 다양한 이체자는 한중 문자학 연구자료로 활용될 수 있다.
4) 한국학 연구에 활용: 본 연구의 DB 구축 대상은 15-19세기 사이에 우리나라에서 간행된 자료들이므로, 해당 시기의 언어, 역사, 사회, 문화 등 다양한 분야의 한국학 연구 자료로 활용할 수 있다.
5) 문화산업에 활용: 본 연구로 구축한 음성 데이터 DB를 활용한 딥러닝 모델을 통해서, 사극에 등장하는 사투리, 중국인, 일본인, 북방 민족 등의 발화를 생동감 있게 재구현할 수 있다.
본 연구의 대상은 이미지로 구축된 152책(약 4만 쪽)이나, 우리나라에는 아직 1차 가공도 되지 않은 무수히 많은 문헌자료가 더 남아있다. 본 연구의 과정에서 수립된 연구 방법론을 이와 같은 고문헌 자료에 적용함으로써 주제별, 작자별, 언어별, 시대별 DB를 구축하고 고도화하는 후속 연구가 계속 파생될 수 있다. 본 연구소는 연구 과정에서 습득한 고문헌 정보화 기술을 개방하고 다양한 연구 주체를 대상으로 교육하여 질적으로 향상된 데이터를 생산하고 새로운 후속 연구가 활발하게 진행되도록 기여할 것이다.

연구요약:

본 연구는 15-19세기에 훈민정음으로 기록된 동아시아 언어(중국어, 일본어, 만주어, 몽골어, 산스크리트어)의 언해류, 운서류, 역학서 총 152책(약 4만 쪽)의 원문 텍스트 DB와 어음 정보 DB, 그리고 음성 데이터 DB 등 총 3종의 데이터베이스를 구축하는 것을 핵심 내용으로 한다. 연구 진행 순서는 다음과 같다.
1) 동아시아 고문헌을 전공한 석·박사 과정의 어학 전공자들이 OCR 등의 도구를 활용하여 원문을 디지털 텍스트로 변환하고, 각 언어에 정통한 전문 연구원들이 내용을 해독하며 입력 오류 여부를 검수한다. 이때 데이터 입력의 수월성을 위해 각 언어에 적합한 입력기를 개발하여 사용할 것이며, 가장 많은 분량의 한자 자료 중 아직 유니코드로 등록되지 않은 한자는 연속문자의 형태로 조합하여 구현할 것이다. 한자로 기록된 문헌이 대다수인 관계로 본 연구소는 고문헌 전공자들을 전임연구인력으로 배치하고, 일본어⋅만주어⋅몽골어⋅산스크리트어 전문가들을 일반공동연구원 및 자문위원으로 참여하도록 하여 연구 수행의 효율을 높이고자 하였다. 연구인력 중 일부는 언어 전공자이면서 전산 전공자들이므로 과제의 진행을 돕고, 언어 연구뿐 아니라 전산이나 공학 분야의 발전에도 그 성과를 확산할 수 있도록 계획하였다.
2) 15-19세기를 총 4개의 시기로 구분하고 시기별 훈민정음의 음가를 기록하고, 이에 대응하는 IPA를 입력하여 발음에 대한 정보를 제공한다. 입력한 IPA 정보와 글자 이미지 정보를 매핑하고, 한⋅중⋅일의 한자음은 󰡔廣韻󰡕 데이터와도 연계한다.
3) 입력된 데이터를 전용 뷰어에 표시하고 원문과 대조하여 정확한 정보를 표시할 수 있도록 오류를 수정한다. 이와 같은 과정을 통해 사용자는 문헌별, 시기별, 언어권별 문자 표기와 어음 및 음성 데이터를 효율적으로 검색하고 고도로 세분된 정보를 얻을 수 있다.
본 연구는 총 6단계로 이루어진다. (1) 데이터베이스 설계 및 입력 도구 개발 (2) 15-16세기 문헌 데이터 입력과 음운 모델 수립, 데이터 통계 시스템 구축 (3) 16-17세기 문헌 데이터 입력 및 음운 모델 수립, 검색서비스 개발 (4) 18세기 문헌 데이터 입력 및 음운 모델 수립 (5) 18-19세기 문헌 데이터 입력 및 음성합성기 개발, 15-16세기 IPA 입력 (6) 19세기 문헌 데이터 입력 및 17-19세기 IPA 입력, 연구 개발 종료 및 사업 보고.
본 연구소는 DB 구축 과정에서 다양한 논제들이 발굴되고 연구원들의 연구성과가 산출될 것을 고려하여, 학계의 연구성과 수용, 연구성과의 공유와 확산이라는 쌍방향 활동을 실현하기 위해 매년 학술대회를 개최하고 연구총서를 발간할 것이다. DB의 완결성을 검토, 수정 보완하여 최종 완성한 후, 한국연구재단 기초학문자료센터의 토대연구 DB에 이관하여, 필요한 누구나 손쉽게 이용할 수 있게 할 것이다.

키워드:

훈민정음, 운서, 언해, 역학서, 한자, 데이터베이스, 동아시아 언어 연구, 한국어, 중국어, 일본어, 몽골어, 만주어, 산스크리트어, 발음 전사, 광학 문자 판독, 유니코드, 15-19세기 한국어 표기 체계

Hunminjeongeum, Rhyme book (Rhyming Dictionary), Eonhae (Korean translation), Yeokhakseo, Chinese characters, Database, East Asian language studies, Korean, Chinese, Japanese, Mongolian, Manchu, Sanskrit, Phonetic transcription, Optical character recognition, Unicode, 15th―19th century Korean writing systems

Leave a Comment