임지선 / 한국외국어대학교 / 인문학 / 드라마 리뷰 데이터 감성분석을 통한 중국 여성상의 변화와 사회적 영향 연구 – 여성 군상극 리뷰를 중심으로 / 2024년도 인문사회학술연구교수B유형 예비선정
연구목표:
최근 중국과 한국에서 여성의 새로운 사회적 역할과 이미지에 대한 인식이 증가하면서 여성 중심의 콘텐츠도 급증하고 있다. 특히, 중국에서는 ‘여성 군상 드라마’가 두드러지게 늘어나며 큰 인기를 얻고 있는데, 이는 여러 여성이 주인공이 되어 역경을 극복하는 성장물을 다루는 콘텐츠를 지칭한다.
본 연구에서는 이러한 드라마의 댓글 리뷰에 중국어 감성분석 방법을 적용하여 중국 내 여성의 사회적 위치와 역할 변화, 그들이 겪는 다양한 문제 등을 알아보고자 한다.
관련 선행 연구는 대부분 작품의 서사와 인물 분석이 주를 이루고 있다. 이러한 연구는 연구자의 주관적 견해와 해석 또는 기존 이론을 적용하였기에, 데이터 분석을 통한 수치화, 객관성이 부족하다.
본 연구에서는 동일 테마의 드라마 7편의 리뷰에 대한 감성분석과 토픽 모델링을 통해 여러 작품에 공통적으로 나타나는 키워드 및 관점을 파악하여, 시청자가 직접 느끼는 감정과 의견을 분석할 수 있다.
토픽모델링, 감성분석 등 다양한 산업에서 활용되는 기술을 연구에 활용함으로써, 선행 연구와의 상호 보완 방법 및 해당 방법론의 연구 확장 가능성을 모색하는 것에 그 목표를 둔다.
기대효과:
첫째, 본 연구의 배경과 목적의 타당성을 입증하기 위해 중국의 콘텐츠 트렌드 변화, 플랫폼 산업 현황, 여성 시청자의 소비 취향 등의 산업 동향 연구에 활용할 수 있다.
둘째, 본 연구 대상인 드라마 리뷰는 비정형 텍스트로서, 실제 중국인이 일상 회화에서 자주 사용하는 어휘로 구성되어 있다. 연구 분석을 위해 데이터 정제, 형태소 추출 등 전처리 과정을 마쳤기 때문에, 상위 출현 빈도의 어휘를 중국어 학습 데이터로 활용가능하다.
셋째, 선행 연구는 일반적으로 특정 작품 1~2편에 대한 서사 연구, 이론의 적용 등 주관적 시점에서의 분석이 주를 이루었다. 반면, 감성분석은 텍스트의 감성을 수치화하여 시각화할 수 있으며, 작품 자체는 물론 리뷰 데이터 역시 대상으로 삼을 수 있어, 기존의 서사 중심 연구와 상호보완이 가능하다.
넷째, 감성사전은 크게 범용 사전과 도메인 특화 사전으로 나눌 수 있다. 같은 어휘라도 도메인의 특징에 따라 다른 극성, 감성을 갖는 경우가 있다. 본 연구는 기존 감성 사전을 도메인 특화 사전 연구로 확장하여, 연구 정확성을 높이고 응용 범위를 확장할 수 있다.
마지막, 리뷰 데이터는 전형적인 비정형성 텍스트로 많은 신조어가 출현한다. 이러한 신조어는 도메인 특징이 두드러지고, 시기에 따라 빈도 차이 또는 소실 등 현상도 나타난다. 이 이점에 착안하여, 리뷰 데이터에서 신조어를 추출하여, 신조어 연구로서의 확장은 물론 도메인별 신조어 사전을 만들 수 있다. 또한, 상품리뷰, 정치 댓글처럼 특징이 다른 데이터에도 연구를 적용할 수 있다.
연구요약:
본 연구는 하나의 장르로 자리잡은 여성 군상 드라마 7편의 리뷰 약 4,000개를 대상으로 감성분석 및 토픽 모델링 분석을 진행하여, 여성의 사회적 역할 변화에 대한 중국 여성들의 관점, 가치관 및 공감대를 분석한다. 본 연구는 기존에 특정 작품의 서사, 캐릭터 분석 방법이 아닌, 댓글의 감성분석과 토픽 모델링 기법을 채용해 중국 여성의 사회적 역할 변화와 공감대 등을 분석하고자 한다.
1) 데이터 수집
중국 소셜네트워크 웹사이트인 더우반(豆瓣)의 여성 군상 드라마 리뷰를 웹크롤링한 데이터를 연구 대상으로 삼는다.
2) 데이터 정제
크롤링한 데이터를 오타 수정, 특수문자 제거 등의 전처리를 거쳐 형태소로 추출한다.
3) 감성분석
다롄 이공대학의 중국어 감성 사전을 활용하여 각 리뷰의 감정을 7가지 감성으로 분류하고 감정 점수를 도출한다. 해당 감성 사전은 ‘乐(즐거움)’, ‘好(긍정)’, ‘怒(분노)’, ‘哀(슬픔)’, ‘惧(공포)’, ‘恶(부정)’, ‘惊(놀라움)’ 7가지 감정 대분류와 21가지 소분류로 나뉘어져 있으며, 어휘별로 감성의 정도를 1, 3, 5, 7, 9로 5단계로 분류했다. 사전의 어휘수는 총 27,466개로 구성된다.
4) 토픽 모델링
‘word2vec’, ‘LDA’ 기법을 통해 중요한 키워드를 추출하고, 이를 기반으로 주제를 분류한다. 또한, 감성분석에서 각 감성별로 높은 출현 빈도를 가진 어휘 3개에 대한 네트워크 분석을 수행하여 감정 표출 원인을 파악한다.
리뷰 데이터에서 나타난 감성 어휘를 통해 시청자가 여성 드라마를 보면서 느끼는 감정과 그 감정의 대상과 원인 등을 분석할 수 있다. 추가로, 토픽 모델링을 통해 리뷰의 내용을 5가지의 주제로 나누어 그 비율을 파악한다.
키워드:
여성 드라마, 중국 여성의 사회적 위치, 여성 군상극, 감성분석, 리뷰 분석, 토픽 모델링, Word2vec, LDA, 데이터 분석
Women’s dramas, the social position of Chinese women, female ensemble dramas, sentiment analysis, review analysis, topic modeling, Word2Vec, LDA, data analysis