김남규 / 텍스트마이닝과 토픽모델링을 활용한 현대시조 관련 연구 동향 분석 / 2024년도 인문사회학술연구교수B유형

김남규 / 한국연구재단 / 인문학 / 텍스트마이닝과 토픽모델링을 활용한 현대시조 관련 연구 동향 분석 / 2024년도 인문사회학술연구교수B유형 예비선정

연구목표:

본 연구는 텍스트 마이닝(text mining)과 토픽 모델링(topic modeling) 등을 활용하여 최근까지의 현대시조 연구 동향을 분석하고자 한다. 학술연구정보서비스(RISS)와 한국학술지인용색인(KCI) 등을 중심으로 현대시조 관련한 연구 논문을 수집하는 것(DB)을 1차 목적으로 하며, 이를 토대로 텍스트 마이닝이라는 디지털 인문학의 방법론으로 현재까지 한국의 현대시조와 관련하여 어떤 연구가 주로 전개되었는지 동향을 분석하는 것을 2차 목적으로 한다. 이에 따라 현대시조를 본격적으로 연구하기 시작한 1970년대부터 현재까지 현대시조와 관련한 연구 동향 분석을 통해 성과 및 한계점을 제시하고, 이를 토대로 향후 한국 현대시조 관련 연구의 발전 방향과 연구 활성화를 위한 구체적 방안을 모색하고자 한다.
이에 따라 본 연구는 첫째, RISS와 KCI 등에서 검색되는 현대시조 관련 학위논문과 학술 논문 전체를 분석자료로 수집할 것이다. 둘째, 10년 단위로 현대시조 관련 논문들을 대상으로 출현 빈도수별 순위가 높은 단어들(키워드)을 파이썬(python)이라는 오픈소스 프로그램으로 추출할 것이다. 셋째, 연도별, 연구 유형별, 연구자 유형별, 연구 대상별, 동시출현 빈도 분석, 중심성 분석 등으로 토픽모델링(데이터 상위 30개 키워드 추출)을 진행할 것이다. 넷째, 분석된 결과를 통해 주제어 중요도 및 의미연결망 등을 시각화할 것이다. 다섯째, 본 연구에 사용된 연구방법 및 자료 등은 깃허브(GitHub) 등에 코드와 함께 공유할 예정이다.
현대시조는 한국 고유의 정형시이자 세계적으로 유일한 시 형식으로 현재까지 창작되고 있다. 그러나 일반적으로 근대(현대)시가 정형시—자유시—산문시의 순서로 출현하여 전개되었다는 사실과 더불어, 전근대의 미학이 반영된 ‘정형률’에서 탈피하여 ‘자유율’로 발전하여 근대성을 지향했다는 가설이 우리 한국 시문학사 논의를 주도해왔다. 이에 따라 향가, 고려가요, 가사, 시조 등은 ‘시가(詩歌)’라는 명칭을 부여받는 동시에 ‘고전문학’의 영역으로 분리되고, 20세기 초반 새롭게 출현한 자유시를 ‘시(詩)’로 보는 기존의 관점은 가(歌)의 분리를 근대(현대)문학의 단초로 보게 하였다. 특히 문학사 역시 내재적 연속성을 갖고 있다는 진화론적 관점에 입각하면서 역사와 함께 문학 또한 발전한다는 ‘민족주의적 충동’이 1980~90년대 문학 담론으로 등장하면서, 현대시조와 정형률은 중세와 근대의 경계를 구분 짓는 표상이 되었다.
여기서 문제가 되는 것은 한국 특유의 고전문학과 현대문학이라는 이분된 학제 편성에 따른 경계 지점이다. ‘시(詩)’는 서구의 영향에 따라 탄생한 새로운 예술 장르로 보고, ‘가(歌)’는 조선 민족이라는 공동체의 속성에서 비롯된 것으로 보면서 전자는 현대문학의 영역, 후자는 고전문학의 영역으로 할당시키면서 가창에서 묵독으로의 전환을 근대성의 표지로 삼는 기존의 논리는 더욱 공고해졌다. 그러나 묵독을 근대성의 척도로 보는 것은 활자 매체의 근대적 요소(자본주의 시스템, 인쇄 출판 기술 등)에 의거해 ‘가(歌)’를 ‘전근대성의 불온한 표지’로 설정한 이분법을 적용한 것에 불과하다.
결국, 한국 시문학사에서 고전문학과 현대문학의 분기점이 정형률인데, 1920년대에 새롭게 발명되고 발견된 ‘현대시조’는 시기적으로 현대문학의 범주에 속함에도 불구하고, 정형률이라는 전근대적 형식을 가지고 있으므로 현대시조를 고전문학의 영역에 위치시키려는 무의식이 그동안 작동해왔다. 이에 따라 현대시조는 현재까지 고전문학과 현대문학 두 영역 모두에서 소외받을 수밖에 없었고, 문화적ㆍ대중적으로도 시조의 정체성은 모호하게 인식되고 있다. 그럼에도 불구하고, 소위 ‘세계화’ 혹은 ‘한류’를 위한 콘텐츠로 시조를 내세울 때는 ‘한국 고유의 정형시’라는 브랜드 네이밍(brand-naming)을 시도한다.
따라서 본 연구는 현대시조를 본격적으로 연구하기 시작한 1970년대부터 현재까지의 현대시조 관련 연구를 최대한 발굴하고 정리하면서, 디지털 인문학을 방법론으로 현대시조 연구 동향을 살피고자 한다.

기대효과:

본 연구의 기대효과는 디지털 인문학 방법론에 관해 발생하는 효과와 현대시조 연구 동향에 대한 연구사적 효과로 나누어 볼 수 있다.
우선, 현대시조 분야에 대한 텍스트마이닝 기법의 활용에 관해 두 가지의 효과를 들 수 있다.
첫째, 국내 현대시조 연구에서 한 번도 활용된 적 없는 텍스트마이닝 연구는 최초의 시도가 될 것이며, 뒤이은 후속연구를 기대할 수 있을 것이다.
둘째, 텍스트마이닝을 위해 텍스트 전처리된 데이터는 앞으로의 현대시조를 비롯한 한국문학 연구 수행 시 유효한 학문적 기초자료로 활용될 수 있다.
다음으로 현대시조 연구 동향에 대한 연구사적 효과는 다섯 가지를 들 수 있다.
첫째, 기존의 정립되지 못한 현대시조 연구사를 통시적인 관점에서 조망하는 시야의 확보를 기대할 수 있다. 특히 연구 동향 연구에서 긴 기간을 시야에 넣기가 어려운 것은, 연구자의 의지에도 불구하고 존재하는 물리적 혹은 정량적 한계 탓이 크다. 본 연구의 텍스트 마이닝 수행은 이러한 한계를 극복하는 단서가 될 수 있다.
둘째, 하나의 문헌(텍스트)이 다양한 주제를 담고 있음을 전제하는 토픽모델링 방법론은 현대시조 논의에 얽혀있는 다양한 주제를 도출해낼 수 있고, 이러한 주제들은 향후 현대시조 연구가 다양한 갈래로 확장할 수 있는 출발점으로 작용할 수 있다. 기존의 현대시조 연구는 일반적으로 근대성 관련한 논의와 편중된 작가 관련 논의가 대부분이지만, 이와 다른 핵심 논의 주제(들)를 찾아낸다면, 현대시조에 관한 연구사를 더욱 질적, 양적으로 풍부하게 만들 수 있을 것이다.
셋째, 데이터마이닝이라는 디지털 인문학을 연구방법으로 선택한 본 연구는 동시출현 빈도 분석, 중심성 분석, 키워드 추출, 의미 간 연결 관계 분석 등과 같은 기존 연구와는 다른 귀납적 사고를 토대로 한 창의적이고 새로운 관점에서의 연구 동향 분석 결과를 도출할 수 있을 것이다.
넷째, 본 연구의 연구 결과는 새로운 현대시조 연구 방법론을 제시함으로써 연구 분야의 확대 및 연구 결과의 다양성을 통해 연구 저변을 공고히 하는 효과를 가져오리라 기대할 수 있다. 현재 한국에서 현대시조에 주목하는 연구자와 연구 논문은 손에 꼽을 정도로 적다. 본 연구는 일반 한국문학을 연구하는 연구자들이 현대시조 연구에 관심을 가질 기회가 될 것이다.
다섯째, 본 연구에 사용된 연구방법 및 자료를 깃허브에 코드와 함께 공유할 예정인데, 이는 현대시조 연구뿐만 아니라 한국문학 다양한 분야의 연구에 활용될 수 있다. 본 연구 과정과 결과를 학술대회 발표와 학술지 투고를 통해 확산함으로써 디지털 인문학이라는 새로운 연구 방법론에 기여할 것이다.

연구요약:

최근까지의 현대시조 관련 연구 동향에 관한 학위논문과 학술논문 등은 아예 존재하지도 않으며, 현대시조 관련한 연구의 경우 몇몇 연구자의 개별 연구만 있을 뿐, 총체적이고 통시적인 연구는 전혀 이뤄지지 않았다.
또한 본 연구가 진행하려고 하는 데이터마이닝과 토픽모델링은 최근 디지털 인문학의 방법론으로 많이 활용되고 있어 시의적으로 적절하다. 토픽모델링은 비정형 데이터인 자연어 텍스트를 언어 처리를 통해 방대한 텍스트 속에 내포된 주제나 관계 등을 찾아내는 기법이다. 이를 위해서 자연어 처리, 통계 분석, 시각화 등의 여러 기법이 사용되고, 이로 인해 연구 효율적 측면에서는 시간과 노동력을 절약할 수 있고 대량의 자료를 바탕으로 한 논문 분석에서도 용이하다. 또한 연구 주제 및 유형 분류에 있어서 객관성을 높일 수 있다는 장점이 있다.
따라서 본 연구는 기존의 연구 방식이 아닌 디지털 인문학의 방법론으로 아직까지 논의되지 못한 현대시조 관련 연구 동향을 ‘최초’로 정립하고자 한다. 기존의 현대시조 관련 연구를 최대한 수집하고 데이터베이스화하여, 디지털 인문학을 방법론으로 현대시조 연구 동향을 살피고자 한다. 이는 또한 현대시조의 ‘K-문학’으로서 가능성을 모색하는 작업의 토대가 될 것이다.
본 연구는 현재까지 진행된 현대시조 관련 연구 동향을 살펴보려는 연구 목적에 따라, 학술연구정보서비스(RISS)와 한국학술지인용색인(KCI) 등을 중심으로 현대시조 관련 학위논문과 학술논문 등을 수집하여 디지털 인문학의 방법론으로 분석하고자 한다. 이에 따라 본 연구는 다음의 연구 대상을 설정하여 연구를 전개하고자 한다.
첫째, 본 연구는 RISS와 KCI에서 검색되는 최동원의 논문 ‘時調의 文學上 形態攷’(부산대학교 인문학연구소, 1970)부터 시작해 2024년 현재까지 50여 년간 검색 가능하고 원문 확인할 수 있는 학위논문과 학술논문을 최대한 수집하여 데이터베이스화할 것이다. 이 작업이 본 연구 중 가장 큰 비중을 차지할 것이다.
둘째, 수집한 학위논문과 학술논문에서 유의어 및 제외어 등 데이터(텍스트) 전처리 및 정제하고 5년 혹은 10년 단위, 통시적 연구 및 작가론 등으로 연구 자료를 분류할 것이다. 한국어 정보처리를 위한 파이썬 패키지인 KoNLPy를 이용해 논문 제목과 키워드 중 명사를 추출하고 키워드 수집, 형태소 분석, 텍스트 토큰화, 불용어 제거의 순서를 거칠 것이다. 이때의 방법론은 크게 2가지로 나눌 수 있는데, 결론 및 초록(키워드)만 대상으로 데이터마이닝을 수행할 수도 있고, 논문 본문 전체를 대상으로 데이터마이닝을 수행해볼 수도 있다. 물론, 전처리한 데이터만 제대로 확보하고 있다면 이 2가지 방법론 중 하나를 선택하거나 수정하는 작업은 어렵지 않다.
셋째, 연구 자료를 토대로 출현 빈도수별 순위가 높은 단어들을 파이썬(python)이라는 오픈소스 프로그램으로 추출한다. 특히, 연구 자료에 존재하는 비정형 데이터인 작가, 작품, 제목, 키워드 등의 메타데이터에도 주목하고자 한다. 메타데이터는 데이터 그 자체는 아니지만 원데이터에 대한 중요한 정보가 담겨 있어 현대시조 관련 연구 동향을 파악하는데 중요한 실마리를 제공할 것이다.
넷째, 최종 정리된 데이터를 토대로 연도별, 연구 유형별, 연구자 유형별, 연구 대상별, 동시출현 빈도 분석, 중심성 분석 등으로 토픽모델링을 진행할 것이다. 파이썬을 활용하여 빈도분석을 수행하고, 상위 50개의 주요 키워드와 빈도수, 백분율 값을 산출할 것이다. 특히 파이썬을 활용하여 토픽 개수별 일관성 점수를 계산해 최적의 토픽 수를 계산하여 최종 토픽을 선정할 것이다. 또한 토픽모델링 분석에 있어 대표적인 알고리즘인 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA)을 활용하여 토픽들을 도출하여 동시 출현 빈도와 중심성에 따라 키워드(언어) 네트워크 및 의미연결망을 시각화할 것이다.
마지막으로 본 연구에 사용된 연구방법 및 자료 등은 깃허브(GitHub) 등에 코드와 함께 공유할 예정이다.

키워드:

현대시조, 연구 동향, 텍스트마이닝, 토픽모델링, 파이썬, 디지털 인문학
Modern Sijo, Research Trends, Text Mining, Topic Modeling, Python, Digital Humanities

Leave a Comment