최지수 / 한양대학교 / 인문학 / 인간과 기계 번역 문체의 전산문체학적 비교: 독-한 번역을 중심으로 / 2024년도 인문사회학술연구교수B유형 예비선정
연구목표:
본 연구는 전산문체학적 분석을 통해 독일어-한국어 번역문을 대상으로 인간 대비 신경망 기계번역이 갖는 문체적 특성이 무엇인지 파악하고 그 차이를 알아보는 것을 목적으로 한다. 또한 그 결과를 바탕으로, 향후 독일어 번역 및 L2 교수·학습에의 자동번역 활용 방법, 프리 및 포스트에디팅 방법을 고찰하고자 한다.
전산문체학적 분석이란 기존 계량통계학적 분석과 전산처리 방법을 융합한 것이다. 먼저, 통계적 방식에 따라 수집한 코퍼스를 대상으로 저자의 문체를 특정할 수 있는 지표를 선별한다. 다음으로는 전산처리를 통해 문체들 간의 비교를 정량적으로 수행하고, 딥러닝을 통해 저자의 문체를 예측한다.
이를 통해 구체적으로는 (1)인간과 기계 간의 문체 차이가 얼마나 있는가, (2)기계번역기 간의 문체 차이가 어떻게 있는가, (3)기계가 인간의 문체를 반영한 번역을 산출하는가라는 세 가지 연구문제에 대해 알아보도록 한다. 이러한 분석은 향후 독일어 L2 학습자와 실무 번역가가 기계가 산출한 텍스트의 문체 차이를 이해하고 적절히 사용하도록 할 수 있다.
기대효과:
본 연구를 통해 학술적, 실무적, 교육적 기여가 이루어지기를 기대할 수 있다. (1)학술적 기여: 인간-기계 번역 문체의 정량적 비교로 NLP 딥러닝 처리를 독일어학 분야에 적용할 수 있고, 인간-기계 간 의미 정확도 분석 외에 문체 차이의 전산적 분석 시도로 보다 정교한 분석의 연결점 역할을 할 수 있다. (2)실무적 기여: 인간-AI 번역의 문체 차이를 실무 번역가, 독일어 L2 학습자에게 양적으로 시각화하여 보여주고, 구체적인 문체적 자질의 차이를 파악하고, 자동번역기 및 AI의 활용 및 신뢰성 추정에 도움이 될 수 있다. (3)교육적 기여: 결과를 토대로 독일어 L2 학습자에게 도움이 되는 기계번역, AI 번역 활용 방안 소개 가능, 이해도 향상에 도움이 될 수 있다.
이러한 연구는 향후 (1)타 병렬코퍼스 언어쌍으로, 또는 세부 텍스트 장르나 특정 시대, 특정 변인에 따라 유사 방법론으로 분석을 시도함으로써 연구성과를 확산할 수 있다. 독일어-한국어의 단일 분석 결과가 독어학, 독문학, 번역학 및 사회언어학 분야와의 연계적 성과로 확산될 수 있다. (2)또한 연구 결과를 토대로 독일어 L2 학습자 대상 자동번역 교육, 포스트에디팅 교육, ChatGPT의 올바른 프롬프트 활용 교육 등, 독일어 L2 교수 학습에 적용될 수 있다. 이는 독일어 교육과의 복합적 성과로 이어질 수 있다. (3)마지막으로 딥러닝 활용 문체 자질 파인튜닝(fine-tuning) 관련 연구를 심화할 수 있다. 다른 하이브리드 알고리즘을 활용하거나 도메인을 특화시켜 진행할 수 있으며, 이는 전산언어학과의 융복합적 성과로 이어질 수 있다.
연구요약:
본 연구는 인간과 기계 간 독일어-한국어 번역 문체의 차이를 전산문체학적으로 분석하는 것을 목적으로 한다. 이는 이전에 영어를 위주로 전개된 자연어처리 분야 분석법 및 국내에서 영-한 언어쌍으로 진행된 전산문체학적 분석을 고려하여 독-한 언어쌍으로 문체를 비교 분석하는 시도이다.
이를 위해 본 연구는 문학과 비문학으로 나누어 병렬코퍼스를 구성하고, 먼저 기존의 계량통계적 방법을 활용하여 텍스트의 어휘 다양성, 길이, 용례, 고빈도 어휘 등을 추출해 이를 분석한다. 다음으로는 전산적 처리를 활용하여 다차원 축소법(MDA), 기능어 주성분 분석(FW-PCA)을 실시하고 그 결과를 시각화한다. 마지막으로 BERT기반 하이브리드 딥러닝 알고리즘(BertAA 등)을 활용하여 인간과 기계의 문체를 예측하게 하고 AI와 인간의 차이를 알아본다.
이러한 시도는 정확도나 의미유사도 외의 지표로 번역품질을 판단하고 나아가 인공지능과 인간 번역의 문체적 차이가 어떠한지 정량적, 시각적으로 파악해본다는 데에서 의의를 찾을 수 있을 것이다. 또한 향후 문학, 번역학, 독일어교육학 등 다양한 분야로 연구의 성과가 확산될 수 있을 것으로 예상된다.
키워드:
기계번역, 문체분석, 코퍼스, 전산언어, 디지털인문학
Machine Translation, Stylometric Analysis, Corpus, Computer Linguistics, Digital Humanities