유은순 / 디지털 시대의 문학 연구: 딥러닝 기반의 언어 모델을 활용한 문학 작품 분석 / 2024년도 인문사회학술연구교수B유형

유은순 / 가톨릭대학교 / 인문학 / 디지털 시대의 문학 연구: 딥러닝 기반의 언어 모델을 활용한 문학 작품 분석 / 2024년도 인문사회학술연구교수B유형 예비선정

연구목표:

디지털 환경과 빅데이터, 그리고 인공지능의 눈부신 발전은 문학 텍스트에 접근하는 방식, 그리고 그것을 관찰하고 이해하는 방식을 바꾸고 있다. 전통적인 정성적 연구만으로는 불충분하다. 이제 문학도 기술과의 적절한 융합을 통해 새로운 방향을 모색할 필요가 있다. 이에 본 연구는 계량적 분석을 통해 오노레 드 발자크 (Honoré de Balzac)의 총서 『인간희극』을 구성하는 91편의 소설들을 새로운 관점에서 해석하고 통찰함으로써 문학 연구에서 양적 연구가 갖는 의미와 가치를 탐구하고자 한다. 이를 위한 구체적인 연구 목표는 다음과 같다. :
첫째, 19세기 프랑스 사실주의 문학을 대표하는 발자크의 총서 『인간희극』에 대해 딥러닝 기반의 언어 모델(Language Model)을 활용하여 임베딩(embedding)을 진행하고 그 결과를 바탕으로 91편의 작품들을 내용적 유사도에 따라 군집화(clustering)한다. 언어 모델이란 “언어를 이루는 구성요소(글자, 형태소, 단어, 문장, 문단 등)에 확률 값을 부여하고 다음 구성요소를 예측하거나 생성하는 모델”[5]을 말한다. 임베딩이란 인공지능 모델이 이해할 수 있도록 단어, 혹은 문장을 실수들로 구성된 벡터로 표현하는 것이다. 문장과 문장 그리고 문서와 문서들 간의 의미적 거리나 관계를 파악할 수 있도록 하는 장점 때문에 의미 기반의 검색이나 추천시스템, 군집화에 많이 사용되고 있다.
둘째, 임베딩 결과를 바탕으로 이루어진 군집화를 통해 『인간희극』 전체를 관통하는 다양한 주제들을 식별하는 한편, 작품들을 연결하는 유사한 주제들을 발견함으로써 작가의 작품 세계를 거시적으로 조망할 것이다. 발자크는 19세기 프랑스 사회 그 자체를 작품 속에 그대로 옮기려는 야망을 실현하기 위해 1820년대부터 1850년까지 집필한 개별 작품들을 『인간희극』에 집결시켰다. 따라서 그의 총서에는 ‘돈’과 ‘성공에 대한 욕망’, ‘부르주아와 귀족 간의 갈등’, ‘도시와 지방’ 등 19세기 자본주의와 산업화, 그리고 대혁명 이후의 급변하는 프랑스 사회의 모습이 고스란히 담겨있다. 정량적 분석을 통해 기존의 정성적 연구를 통해 드러나지 않았던 숨겨진 주제들을 찾아내고 주제 분류를 계층적으로 세분화하여 ‘주제 트리(Tree)’를 구축한다면 발자크의 작품 세계를 좀 더 다채롭고 입체적으로 제시할 수 있을 것이다.
셋째, 군집화 결과를 발자크가 시도했던 분류 결과와 비교하여 유사점과 차이점을 분석할 것이다. 『인간희극』안에서 91편의 작품들은 독립적으로 존재하기보다는 마치 하이퍼텍스트처럼 주제에 따라 서로 유기적으로 연결되어 있다. 그는 먼저 91편을 세 개의 큰 주제인 ‘풍속연구’(66편), ‘철학적 연구’(20편), ‘분석적 연구’(5편)로 분류하였다. ‘풍속연구’은 19세기 프랑스 사회현상을 담고 있으며, ‘철학적 연구’는 사회현상의 원인을 규명하는 것과 관련되며, ‘분석적 연구’는 그 결과와 원인을 분석하여 보편적 원리를 제시한다. 이 중 ‘풍속연구’에 속한 66편을 다시 ‘사생활의 정경’(28편), ‘지방 생활의 정경’(10편), ‘파리 생활의 정경’(18편), ‘정치 생활의 정경’(4편), ‘군인 생활의 정경’(2편), ‘전원생활의 정경’(4편) 6개의 항목으로 세분화하였다. 이와 같은 발자크식 주관적 분류와 딥러닝 기술을 활용한 객관적 결과를 비교하여 차이와 유사성을 포착한다면 『인간희극』의 문학적 의도를 심층적으로 이해할 수 있을 것이다..

기대효과:

1) 학문적 기대 효과 : 인공지능 기술을 활용한 문학 연구 활성화

문학 분야에서 정량적 분석에 대해 부정적인 시각이 지배적인 상황이지만 TF-IDF와 같은 통계기법에서부터 Word2vec 같은 언어 모델에 이르기까지 문학 연구에 기술을 활용한 연구들이 조금씩 관심을 끌고 있다. 딥러닝 기반의 언어 모델들은 문학 텍스트의 내용적 의미와 작가의 의도를 분석하는 데 큰 장점이 있는 만큼 본 연구는 인공지능 기술과 문학 간의 학제간 연구의 활성화에 기여할 수 있다. 특히 『인간희극』 전체에 내포된 다양한 주제를 계층적으로 세분화하여 분류한 ‘주제 트리’ 구축은 국내에서는 시도된 사례가 없다는 점에서 학문적 희소성을 보여준다. 또한 ‘주제 트리’는 발자크가 바라본 19세기 프랑스 사회를 심층적으로 이해할 수 있도록 해준다는 점에서 문학사회학적 연구로서의 가치도 갖고 있다.

2) 교육적 기대효과 : 디지털 기반의 문학 교육 모델 제시
본 연구는 디지털 시대에 문학 교육도 변화와 개혁에서 예외가 될 수 없음을 알리는 신호가 될 수 있다. 대학의 문학 교육은 교수자가 선택한 정전에 대한 ‘꼼꼼히 읽기’를 통해 작품의 의미와 문학적 가치를 논의하는 방식이다. 따라서 한 학기 동안 읽고 분석할 수 있는 작품의 수는 매우 제한적이다. 전통적인 문학 교육 방식은 학생들이 발자크의 작품 세계를 이해하는 데 충분하지 않다. 본 연구는 학생들에게 디지털 분석 도구의 유용성과 정량적 분석의 필요성을 인식시키고 실제 문학 교육 현장에서 디지털 기반의 문학 교육 실천하기 위한 교육 모델을 제시하는 데 기여할 수 있다.

3) 사회적 기대효과 : 문학의 위기를 극복하기 위한 방안 마련
문학의 위기는 오늘날의 문제가 아니다. 인공지능과 같은 기술이 발전할 때마다 문학은 항상 존재론적 가치를 증명해야만 했다. 문학이 하나의 고립된 섬으로 머물러 있지 않고 기술이나 다른 학문들과의 융합을 통해 인간과 세상을 연구하는 실용적인 학문이라는 사실을 인식시킬 필요가 있다. 본 연구는 인공지능 기술이 어떻게 문학 연구에 활용되어 문학 연구의 지평을 넓힐 수 있는지를 보여줄 수 있다는 점에서 문학에 대한 인식을 바꿀 수 있는 계기가 될 것이다.
인공지능의 눈부신 발전과 급변하는 디지털 환경에서 문학 연구는 새로운 국면을 맞이하고 있다. 본 연구는 목적은 발자크의 방대한 분량의 작품을 대상으로 전통적인 문학적 주제를 계승하면서도 인공지능 기술의 적절한 활용을 통해 작품에 대해 새로운 통찰을 제공하는 것이다. 문학 연구에서 디지털 분석 도구와 딥러닝과 같은 인공지능 기술의 적극적인 사용이 필요한 시점이다. 이러한 도전적인 시도는 전통적인 문학 연구 방법을 부정하는 것이 아닌 그것을 보완하는 또 다른 방법론으로서의 가치를 제공할 것이며 현재 문학이 겪고 있는 존재론적 위기를 극복하기 위한 하나의 방안이 될 수 있다고 기대한다.

연구요약:

본 연구는 계량적 분석을 통해 발자크의『인간희극』을 구성하는 91편의 소설들을 새로운 관점에서 해석하고 통찰함으로써 문학 연구에서 양적 연구가 갖는 의미와 가치를 탐구하고자 한다. 이를 위한 구체적인 연구 내용과 방법은 다음과 같다. :
○ 『인간희극』 코퍼스 및 도메인 적응(Domain Adaptation)을 위한 19세기 프랑스 문학 코퍼스 구축
프로젝트 구텐베르크를 통해 디지털화된 영어 버전의 『인간희극』 전체와 19세기 프랑스 문학 작품들을 수집하여 코퍼스를 구축한다. 프랑스 문학 작품임에도 영어 버전을 선택한 이유는 텍스트 분석 도구들이 영어에 좀 더 나은 성능을 보이고 있기 때문이다. 한편 19세기 프랑스 문학 코퍼스가 필요한 이유는 19세기 문학 도메인 적응을 위해서이다. 도메인 적응이란 “인공지능 학습용 데이터가 부족할 때, 타겟 도메인과는 약간 다르지만 비교적 유사한 도메인에서 획득한 데이터를 활용하는 것”[18]을 말한다. 즉 언어 모델이 발자크 문학과 유사한 19세기 문학 텍스트에 대한 추가 학습을 통해 주요 특징과 정보를 얻게 되면 발자크 문학을 효과적으로 학습할 수 있다.
○ 데이터 전처리 및 분할(segmentation)
코퍼스 구축이 끝나면 파이썬 라이브러리인 젠심(Gensim)을 이용하여 분석에 불필요한 불용어를 제거하는 전처리를 진행한다. 전처리 후에는 허깅페이스(Huggingface)가 제공하는 BERT Word Tokenizer를 활용하여 텍스트를 장(chapter), 문단, 문장 그리고 단어 순으로 분할한다.
○ 도메인 적응을 통해 19세기 문학의 고유한 특징과 패턴을 학습
위에서 기술한 것처럼 언어 모델이 미리 구축된 코퍼스를 활용하여 도메인 적응을 통해 19세기 문학 작품의 고유한 언어학적 특징과 패턴을 학습하게 되면 발자크 작품에 내재된 심층적인 정보까지 효과적으로 학습할 수 있다.
○ 언어 모델 선정
현재 딥러닝 기반의 언어 모델은 BERT, RoBERTA, ELMO와 같이 대량의 코퍼스를 사전 학습(pre-training)한 범용 모델부터 단어 임베딩을 위한 Word2Vec에 이르기까지 매우 다양하다. 본 연구는 현재 특정 언어 모델을 선정하기보다는 여러 언어 모델을 활용하여 그 성능을 평가한 후에 가장 최적의 모델을 선정할 것이다. 문학 텍스트는 비유와 상징, 은유 등 여러 수사학적 표현들이 풍부하기 때문에 분석의 정확도를 위해서는 신중한 선택이 필요하다.
○ 언어 모델을 활용한 임베딩을 통한 벡터 추출
그동안 임베딩을 위해 통계 기반의 TF-IDF와 토픽 모델링, 그리고 언어 모델 Word2Vec이 많이 활용되었다. TF-IDF와 토픽 모델링은 문서에서 주제를 효과적으로 탐색할 수 있다는 장점은 있으나 텍스트의 문맥 정보를 충분히 포착하지 못하는 문제가 있으며, Word2Vec는 새로운 단어가 입력되면 임베딩을 구하지 못하는 OOV(Out of Vocabulary) 문제가 발생하기 때문에 방대한 데이터를 다시 학습해야 하는 번거로움이 따른다. 본 연구는 문맥 정보를 고려하고 단어가 아닌 문장을 임베딩하는 것을 목적으로 하므로 언어 모델을 활용하면 더 나은 결과를 기대할 수 있다.
언어 모델이 선정되면 발자크의 작품들을 문장 단위로 모델 안에 입력한 작품별로 특징 벡터를 추출한다. 벡터화는 각 문장의 평균값을 통해 이루어진다.
○ 임베딩을 바탕으로 한 『인간희극』 군집화 및 주제 트리 구축
임베딩은 문서와 문서들 간의 의미적 거리나 관계를 파악할 수 있도록 해준다. 따라서 임베딩 결과를 바탕으로 91편의 작품들을 내용적 유사도에 따라 군집화를 진행하고 각 군집의 특징을 분석하여 『인간희극』을 순환하는 다양한 주제들을 식별하는 한편 작품들을 연결하는 유사 주제를 파악한다. 그리고 주제 분류를 계층적으로 세분화하여 주제 트리를 구축한다. 『인간희극』의 주제 트리를 통해 발자크가 바라본 19세기 프랑스 사회에 대한 심층적으로 이해할 수 있으며 동일한 주제에 대한 발자크의 다양한 시각과 관점을 확인할 수 있을 것이다.
○ 『인간희극』 전체에 대한 거시적인 통찰
딥러닝 기술을 이용한 군집화 결과와 발자크식 기준에 따른 분류를 비교하여 차이점과 유사점을 고찰함으로써 『인간희극』의 문학적 가치를 새롭게 제시한다. 또한 정량적 분석과 같은 객관적인 방법이 주관적 기준에 따른 발자크의 분류와 어떻게 서로 보완될 수 있는지를 탐색하면서 양적 연구가 문학 연구에서 질적 연구와 균형을 이루는 하나의 분석 방법론으로서의 가능성에 대해 논의한다.

키워드:

디지털 인문학, 딥러닝, 언어 모델, 임베딩, 정량 분석

digital humanities, deep learning, language model, embedding, quantitative analysis

Leave a Comment