임준철 / 고려대학교 부설 한자한문연구소 / 인간의 한국 한시 향유와 기계의 한국 한시 분석의 만남: 시맨틱 큐레이션과 워드임베딩 기술을 활용한 한국 한시 데이터 프로세싱 / 2024년도 글로벌인문사회융합연구지원사업(연구그룹형) 예비선정

임준철 / 고려대학교 부설 한자한문연구소 / 인문학 / 인간의 한국 한시 향유와 기계의 한국 한시 분석의 만남: 시맨틱 큐레이션과 워드임베딩 기술을 활용한 한국 한시 데이터 프로세싱 / 2024년도 글로벌인문사회융합연구지원사업(연구그룹형) 예비선정

연구목표:

본 연구는 조선 전·중기에 편찬된 약 20가지 시문집에 수록된 약 17,500여 수, 83만여 자 분량의 한시를 수집・정리・검토하고, 해당 시기의 한시 작가를 다룬 약 430여 건(학위논문 약 130여 건, 학술논문 약 300여 건) 이상의 논저를 정리・체계화함으로써 조선 전·중기 한시 지식그래프를 구현할 수 있는 시맨틱 데이터를 편찬하고, 해당 데이터를 대상으로 공기어분석, 토픽모델링, 워드임베딩을 매개한 딥러닝 모델 등 자연어처리 기반의 다양한 데이터 분석 연구를 수행함으로써, 해당 데이터와 분석 알고리즘을 모두 담아낸 한시 데이터 아카이브를 웹상에서 제공함과 동시에, 그러한 연구 전체의 내용과 학술적 의미를 종합적으로 정리한 연구 논저를 간행하는 것이 목표이다. 이와 같은 연구 목표는 인간이 전통적으로 향유해 온 한시에 관한 이해와 최근 급격히 발달한 AI가 분석한 한시에 관한 맥락을 심층적으로 비교해 보고자 하는 동기에서 기인한다. 구체적인 연구 내용은 다음과 같다.
한국 한시의 대체를 파악하기 위해서 ①그동안 이루어져 온 번역 및 연구 성과를 종합적으로 정리하고, 정리한 내용을 정교한 데이터로 편찬하는 데 있어서 Triple(S-P-O) 데이터를 구축-분석-표현-공유하는 시맨틱 데이터 처리 방법론을 활용하고자 한다. 한시 자료를 대상으로 시맨틱 데이터 처리 방법론을 적용할 경우 한시 연구자들이 쌓아 온 질적 성과를 데이터 스키마에 반영할 수 있으며, 해당 스키마가 반영된 한시 데이터를 대상으로 자연어 처리 기반의 기계 학습 알고리즘을 활용할 경우 기계에 의한 분석적 한시 읽기를 시도할 수 있다.
첫 번째로, 한시(근체시)에서 낱글자와 시어(詞語)와 구절 단위로 연계-대구를 형성하는 근체시의 특징을 데이터 구조에 반영함으로써, ②공기어 분석을 통해 그것들 사이의 공기 양상을 복합적으로 살펴보는 연구를 시도할 것이다. 한국 한시를 대표하는 작품들을 대상으로 한시를 구성하는 여러 언어적 요소의 공기 양태를 밝힐 수 있다면, 한국 한시의 언어적 특징을 정리하는 데 있어서 유효한 단서가 될 것이다. 두 번째로, 한시(근체시)에서 낱글자와 시어(詞語)를 기준으로 이미지 데이터를 구축함으로써, ③토픽모델링을 활용해 어휘와 이미지를 매개로 개별 작품의 주제(Topic)를 귀납적으로 파악하는 연구를 시도할 것이다. 한국 한시를 대표하는 작품들을 대상으로 어휘와 이미지 기반의 주제 분포를 나타낼 수 있다면, 한국 한시가 내포한 뚜렷한 미적 의식을 정립하는 데 있어서 유효한 단서가 될 것이다. 그리고 한국 한시의 작품 형식과 양태 및 의미적 맥락을 기술한 데이터를 대상으로 ④워드임베딩(Word2Vec, BERT) 모델을 적용해 분석함으로써, 한국 한시 분류 및 클러스터링 연구를 시도할 것이다. 이를 통해 인간이 향유해 온 한시와 기계가 이해하는 한시의 맥락이 어떻게 다른지 그 특질을 변별적으로 비교・고찰하는 것이 가능하다.
이러한 다방면의 연구 과정 가운데, 데이터 모델링 과정의 ⑤한국 한시 데이터 스키마 디자인에 관한 문제의식을 정리해 논문으로 발표해서, 추후 본격적인 한국 한시 데이터 아카이브 구축을 위한 이론적 근거로 삼고자 한다. 또한 ⑥한국 한시 데이터셋을 XML, RDF, JSON, CSV 등 웹에서 통용되는 표준적 형식으로 편찬해 연구 종료 시점에 웹을 통해 공유하고자 한다. 해당 데이터셋을 활용해 한국 한시를 연구하려는 연구자나 유관 콘텐츠를 제작하려고 하는 일반인에게 유용한 참고 자원이 될 것이다. 그리고 ⑦한국 한시 데이터 분석 과정에서 활용한 다양한 소스코드와 분석 도구를 연구 종료 시점에 웹을 통해 공유하려고 한다. 구체적인 소스코드나 분석 도구가 웹상에서 공유된다면, 추후 유관 분야의 한문학 자원을 활용한 융합 연구가 진행되는 데 있어서 실질적 도움이 될 것이다. 뿐만 아니라 ⑧연구를 통해 정리된 한국 한시에 관한 학술적 문제의식과 디지털 한문학 연구로서의 성과를 종합적으로 정리한 학술 논저를 간행함으로써, 본 연구의 학술적 성과가 학계에 더욱 확대될 수 있도록 할 것이다.

기대효과:

①한국 한시 데이터셋 개방을 통한 디지털 한문학 연구의 기초 자원 확보: 본 연구를 통해 구축・개방될 XML, RDF, JSON, CSV 등 여러 표준적 형식의 한국 한시 데이터셋은 추후 디지털 방법론을 통해 한국 한시를 다루고자 하는 연구자들에게 필수적인 기초 자원이 될 것이다. 관련해서 최근 중국과 대만은 고전시가를 디지털화하고 아카이빙하여 분석하는 연구를 꾸준히 진행하고 있다. 전근대기 한국 한시 자료 또한 그 양식상의 일치 문제로 인해 유관 자원으로 포괄하려고 하는 시도가 조금씩 확인되고 있는 상황이다. 본 연구의 결과물로서 한국 한시 데이터 아카이브가 구현될 경우, 디지털 환경에서 편찬된 자주적 성격의 한국 한시 자원을 마련한다는 측면에서 상징적인 의미가 있다.
②한문학 연구에서의 자연어 처리(NLP) 기술의 활용 가능성 탐색과 워드임베딩 기술의 접목 방안 검토: 현대한국어와 달리 전근대기 한국 한문은 온전한 코퍼스가 구축되지 않았기에, 자연어처리 기술을 본격적으로 활용한 연구가 거의 없다. 이와 같은 상황에서 체계적인 데이터 스키마를 적용한 한국 한시 코퍼스를 대상으로 자연어처리 기반의 텍스트 분석 연구를 시도할 경우, 한문학 자원의 코퍼스 구축 필요성과 그에 기초한 디지털 한문학 연구의 가능성을 환기할 것으로 기대된다. 그리고 최근 인문학 분야에서 워드임베딩 알고리즘을 활용한 연구가 부쩍 늘어나고 있음에도, 한문학 자료를 대상으로 한 본격적 연구는 거의 없다. 본 연구를 통해 워드임베딩 기술을 적용한 한시 분석 연구의 유효함이 증명되면 AI 기술을 접목한 한문 자료 연구의 필요성이 논의될 것이며, 융합적 문제의식에 입각한 후속 연구를 추동함으로써 한시 연구의 새로운 장을 여는 데 디딤돌 역할을 할 것이다.
③교육과의 연계를 통한 디지털 인문학 연구 인력 양성: 최근 학계에서 ‘디지털 인문학’이라는 키워드가 유행하고 있는 것과 별개로, 강단에서 개설되는 디지털 인문학 강의는 매우 부족한 실정이다. 본 연구에 참여하는 학생 연구자들은 프로젝트 기반 하에 진행되는 다양한 디지털 인문학 과업을 경험할 수 있으며, 이는 곧 본 연구가 대학원에서 한문학을 연구하는 학문 후속세대에게 디지털 인문학 분야의 소양을 제공하는 교육 채널이 될 수 있음을 의미한다. 이와 관련해 최근 한문학 연구는 한국, 중국, 대만, 일본, 유럽, 미국 학계가 연계한 국제 학술환경에서 ‘동아시아학’의 외연 가운데 하나로 논의되고 있으며, 디지털 인문학 방법론을 접목한 새로운 형식의 연구가 확산하고 있는 상황이다. 본 연구에 참여하는 학생 연구자들은 향후 소위 ‘디지털 동아시아학’에 대응할 잠재적 연구 인력으로서, 그에 관한 기초적 이해와 문제의식을 갖출 수 있을 것이다.
④한국 한시 데이터 아카이브 제공과 ‘Digital Humanities Awards’ 수상을 통해 한국 한시의 문화적 가치를 세계에 발신: 본 연구에서 장기적으로 구현하고자 하는 한국 한시 데이터 아카이브는, 검색이 가능하고 개별 작품에 관한 원자료 이미지(PDF)를 확인할 수 있으며, XML 데이터를 다운로드할 수 있을 뿐만 아니라, 컴퓨터 알고리즘을 기반으로 한 언어학적 접근을 토대로 개별 작품에 관한 다채로운 분석 및 시각화 결과를 확인할 수 있는 종합적 성격의 데이터베이스이다. 그와 같은 기초 데이터셋 디자인 및 개방에 관한 이론적 근거와 데이터 분석 과정 및 시각적 출력에 관한 구체적 방안을 마련하는 것이, 본 연구의 핵심에 해당한다. 한국 한시 데이터 아카이브가 2026년 구현되면, 당해 ‘Digital Humanities Awards’에 노미네이트를 진행하고 수상을 목표로 함으로써, 한국 한시 연구의 성과를 전세계에 발신하고자 한다. ‘Digital Humanities Awards’는 2012년부터 2021년까지 총 10차례 열린 디지털 인문학 분야의 시상행사로서, 전세계 디지털 인문학 연구자들이 참여하는 일종의 축제이자 연례행사라 할 수 있다. 그와 같은 자리에서 수상하게 된다면, 한국 한시의 문화적 가치를 전세계적 차원에서 제고하는 기회가 될 것이다.

연구요약:

①목적과 배경: 한문학 연구는 자료 발굴과 해독이 어려워 전통적으로 ‘자료 중심의 질적 독해’ 방식에 치중해 왔다. 그로 인해 자료는 꾸준히 발굴・축적되어 왔으나, 큰 규모의 자료를 어떻게 효과적으로 다룰 것인가에 관한 고민은 여전히 깊이 이루어지지 못하고 있다. 그동안 누적되어 온 개인 연구 성과를 취합하고 그로부터 새로운 연구 시각과 방법론을 이끌어내기 위해, 디지털 환경 및 데이터 처리 기술을 매개로 한 협업 연구의 구체적 형식을 적극적으로 마련할 필요가 있다. 이와 관련해 최근 몇 년 사이 기계학습 분야를 중심으로 AI 기술이 비약적으로 발달했고, 중화권 연구자들을 중심으로 유관 기술을 한문학 연구에 활용하려는 시도가 증가하고 있다. 특히 중국에서는 한시 창작 모델, 한시 분석 모델, 한시 평가 모델 등에 대해 꾸준한 관심을 가지고 최신의 연구 성과를 도출해내고 있으며, 일본에서도 한시 데이터를 분석하는 연구 및 각종 한적의 데이터베이스화 과업과 유관 프로젝트가 활발하게 진행되고 있다. 한국 또한 한문학 분야의 한국 한시 연구 영역에서, AI 기술의 활용 가능성을 적극적으로 검토하고 그 방안을 마련할 필요가 있다.
②대상과 방법: 본 연구는 시대와 작가의 특징이 집중적으로 연구된 조선 전·중기를 출발로 삼아서, 대상 자료의 범위를 점차 확대해나가는 방식을 취하고자 한다. 이에 따라 우선 조선 전·중기의 한시문학을 대표하는 20가지 문집을 선정해, 그에 수록된 약 17,500수, 83만여 자 정도 분량에 육박하는 한시를 구체적 대상으로 삼았다. 그리고 조선 전·중기 시문학과 주요 작가를 다룬 약 430여 건(학위논문 약 130여 건, 학술논문 약 300여 건) 이상의 학술 논저를 추가적인 검토 대상으로 삼았다. 그와 같은 여러 유형의 한시에 담긴 다채로운 정보를 데이터로 균질하게 정리하고 그 사이의 복잡한 의미 관계를 디지털 환경에서 효과적으로 재현하기 위해, 시맨틱 데이터 모델을 활용할 계획이며 해당 모델에 입각한 한국 한시 데이터셋을 XML, RDF, JSON, CSV 등 여러 형식의 표준적 포맷으로 가공・개방할 예정이다. 그리고 공기어 분석을 통해 한시(근체시)에서 낱글자와 시어(詞語)와 구절 단위로 연계-대구를 형성하는 근체시의 특징을 공기 양상으로 살펴보는 연구를 진행할 것이며, 토픽모델링을 활용해 한시(근체시)에서 낱글자와 시어(詞語)를 기준으로 한 이미지 매개의 주제(Topic) 양상을 탐색하는 연구를 진행할 것이다. 더 나아가 워드임베딩(Word2Vec, BERT) 모델을 활용해 한국 한시의 작품 형식과 양태 및 의미적 맥락을 분류하고 클러스터링함으로써, 인간이 전통적으로 향유해 온 한시에 관한 이해와 기계가 분석하는 한시의 이해 맥락이 어떻게 다른지를 변별적으로 비교・고찰할 계획이다.
③절차와 내용: 본 연구는 총 4단계의 절차를 통해 진행될 계획이다. 1단계(1차년도)는 연구 대상 작품들을 탐구하고 유관 연구 성과(논문)를 검토하며, 그 결과를 바탕으로 온톨로지 디자인과 기초 데이터 모델링 연구를 진행한다. 2단계(2차년도)는 1단계 연구에서 확보한 개념적 데이터 모델을 바탕으로 논리적・물리적 데이터 모델링 과정을 진행하고, 확정된 데이터 모델에 입각해 XML 기반의 마크업 형식으로 한국 한시 데이터셋을 편찬한다. 그리고 공학 연구자들을 중심으로 공기어 분석, 토픽모델링 분석, 워드임베딩 기반의 분류 및 클러스터링 연구를 위한 구체적 방법론과 유관 기술을 조사・정리한다. 3단계(3차년도)는 2단계에서 정리한 데이터 분석 방안에 관한 조사 내용을 바탕으로 공기어, 토픽모델링, 워드임베딩 모델 각각에 기초한 분석 방법을 정립하고, 실제 한국 한시의 특질을 파악하기 위한 분석 연구를 다각도로 진행한다. 그리고 웹에서 데이터 아카이브를 구현하고 데이터셋을 개방하기 위한 작업을 함께 진행한다. 4단계(4차년도)는 3단계까지의 연구 과정에서 개발・산출한 연구 과정과 성과를 모두 정리한 학술 논저를 간행하고, 3단계 연구에서 구현한 한국 한시 데이터 아카이브(데이터셋 포함)를 실제 웹에서 제공한다.

키워드:

한국 한시, 조선중기한시, 시맨틱데이터처리, 온톨로지, 데이터모델, 데이터분석, 데이터큐레이션, 데이터아카이브, 자연어처리, 기계학습, 공기어분석, 토픽모델링, 워드임베딩, 디지털인문학

Sino-Korean Poetry, Poetry in Mid-Joseon Period, Semantic Data Processing, Ontology, Data Model, Data Analysis, Data Curation, Data Archive, Natural Language Processing, Machine Learning, Co-Occurrence Word Analysis, Topic Modeling, Word Embedding, Digital Humanities

Leave a Comment