봉미경 / 20세기 전반기 신문 텍스트에 나타난 어휘 사용 양상 분석 / 2024년도 인문사회학술연구교수B유형

봉미경 / 연세대학교 / 인문학 / 20세기 전반기 신문 텍스트에 나타난 어휘 사용 양상 분석 / 2024년도 인문사회학술연구교수B유형 예비선정

연구목표:

자연언어처리 및 인공지능 기술 발달과 함께 고문헌 자료의 전자화와 대규모 자료의 자동 처리가 가능해지면서 디지털 인문학에 대한 관심이 높아지고 있다. 그러나 한국어 처리에서 텍스트의 생산 시기에 대해 고려하지 않고 일괄적인 처리 방법을 적용한다면 고문헌 자료를 정확하게 분석할 수 없다. 한글 텍스트가 활발하게 생산되기 시작한 1900년대 전반기의 텍스트에는 표기, 문법, 어휘 등의 다양한 측면에서 다양한 언어 변이가 담겨 있다. 이 시기에는 국한문 혼용체가 사용되었고 표기법도 오늘날과 크게 달랐기 때문에 이 시기 텍스트에 현대 한국어 분석 기술을 일괄 적용할 경우 정확한 분석 결과를 얻기 어렵다. 1900년대 초 신문 기사의 한글 표기 문장, 국한문 혼용 문장을 자동 형태소 분석기에 분석해 보면 오늘날의 문장과 같이 정확하게 분석될 수 없음을 확인할 수 있다. 이에 본 과제에서는 1900년대 전반기 신문 텍스트의 언어 정보 주석 결과를 정제하여 언어 단위 목록을 추출하고 표준형 정보와 미등재어 정보를 작성한 후에 이를 토대로 어휘 사용 양상의 변화에 대한 통시적 연구를 수행하고자 한다. 분석 자료를 기반으로 유사한 의미를 가진 어휘들이 시기별로 어떻게 생성, 변화, 소멸하는지 관찰함으로써 20세기 전반기 언어 자료 중심 연구의 토대를 마련하는 데 기여할 것이다. 언어 전문가가 수작업으로 정제한 주석 결과를 기반으로 작성한 언어 단위 목록과 표준형 정보, 미등재어 정보 등의 언어 분석 데이터는 자동 전산 처리의 빈틈을 해결하고 언어 처리의 정확도를 높이는 데 필요한 언어 자원으로 활용될 수 있을 것이다.

기대효과:

1) 어휘론 분야에의 기여

  • 20세기 전반기 신문 텍스트 분석 결과를 토대로 어휘 사용 양상을 분석하고 어휘 변화 현상을 관찰, 기술함으로써 어휘의 통시적 연구에 기여한다.
  • 말뭉치 기반의 실질적이고 면밀한 분석을 시도함으로써 어휘론의 주요 연구 과제인 어휘 자료 연구에 기여한다.
    2) 언어 정보화에의 기여
  • 20세기 전반기 신문 분석에 따른 어형과 표준형, 미등재어 목록 등의 언어 정보를 구축하고 자연언어처리 도구 개발을 위한 기반 자료로 제공함으로써 형태 분석기 품질 개선에 기여할 수 있다.
  • 국어사전 미등재어 목록의 사전 등재 가능성을 검토하여 국어사전의 새 표제어로 제공하고 국어사전 편찬에 기여할 수 있다.
    3) 학제간 연구에의 기여
  • 20세기 전반기 신문 텍스트에 나타난 언어 현상을 분석하고 관찰하여 특성을 정립한 결과는 이 시기 신문 텍스트를 활용하여 정치, 사회, 문화 등의 다양한 국면에서 연구하고자 하는 인문‧사회 연구자들을 위한 기초 자료로 활용될 수 있다.
    4) 언어학과 인문학의 사회 확산에 기여
  • 연구 성과에 대한 국내 및 해외 학술대회 발표, 정례 학술 발표회 참여, 학술지 논문 투고를 통하여 연구 성과의 확산을 위해 노력한다.

연구요약:

본 과제의 목적은 1900년대 전반기 신문 텍스트의 언어 정보 주석 결과를 정제하여 언어 단위 목록을 추출하고 현대어 대응어 정보와 미등재어 정보를 작성한 후에 이를 토대로 어휘 사용 양상의 변화에 대한 통시적 연구를 수행하는 것이다. 본 과제는 다음의 연구 내용과 추진 전략에 따라 연구를 수행한다.
1) 자료 기반 어휘 연구를 위한 말뭉치의 활용
– 본 과제에서 1900년대 전반기 신문 텍스트를 분석하기 위하여 조선일보 아카이브에서 제공하고 있는 기사문과 현대어 번역문을 샘플링하여 이용한다. 통시적 어휘 사용 양상을 비교하기 위한 오늘날의 말뭉치는 현대국어 1억 3천만 어절의 대규모 말뭉치와 모두의 말뭉치를 이용하되, 20세기 전반기 신문에 나타난 언어 현상과의 비교를 위해서 20세기 후반기 텍스트로 재구성하여 활용한다.
– 20세기 전반기와 후반기의 신문 텍스트에 나타나는 언어 현상을 다양하게 관찰하기 위하여 정량적 분석을 시도한다. 코사인 유사도를 계산하여 시기별로 유사한 환경에서 나타나는 어휘 목록을 추출하고 시기별로 나타나는 유의미한 차이에 대하여 분석한다. 또한 유사한 의미를 가진 어휘들의 시기별 차이를 분석하기 위하여 R 프로그램을 활용하여 유의어들의 연어 정보의 통계 데이터를 계산하고 이를 기반으로 시기별로 포착되는 유의미한 차이를 규명한다.
2) 자료 기반 어휘 연구를 위한 말뭉치의 주석: 현대어 대응어와 미등재어 분석
– 분석 대상으로 선정한 기사를 직접 검토하여 오류를 수정하고 대응 현대어 정보와 미등재어 정보를 주석한다. 예를 들어, 샘플 분석 결과 중 우리말샘에 등재되지 않은 어휘로는 ‘종(從)하다’, ‘실(失)하다’, ‘취인(取引)’, ’세층배‘, ’불(拂)하다‘ 등이 있다. 이 어휘의 사전 등재 가능성은 전후 시기 언어 자료와의 비교를 통해서 면밀히 검토한다.
– 국어사전 등재 가능성을 검토한 미등재어의 경우 원고 모형을 제안한다.
– 국어사전에 용례 없이 등재된 표제어들 중 조선일보 20세기 전반기 기사에서 용례가 발견되는 어휘들이 있다. 이 용례들은 사전 원고의 용례를 보완하는 데 활용할 수 있다. 예를 들어‘여히’는 표준국어대사전에 용례 없이 수록된 표제어이다.
– 분석된 20세기 전반기 언어 단위 목록, 현대어 대응어 목록, 미등재어 목록은 20세기 전반기 한국어 데이터의 전산 처리의 정확도를 높이기 위한 기초 데이터로 활용될 수 있다. 자연언어처리 전문가에게 데이터를 제공하고 공동 연구를 통하여 실제 활용 가능성을 확인할 예정이다.
3) 자료 기반 어휘 연구: 20세기 전반기 한국어 어휘 양상 관찰
– 첫째, 20세기 전반기 신문 텍스트에 나타난 어휘의 특성을 연구한다. 특히, 국어사전 미등재어나 국어사전에 용례가 없는 어휘들이 가지는 의미, 용법, 표기상의 특성을 분석한다. 미등재어의 경우 전후 시기 언어 자료, 즉 이전 시기의 국어 자료 용례, 이후 시기인 현대어 텍스트 용례를 확인함으로써 생성, 변화, 소멸 과정을 분석한다.
– 두 번째로, 유사한 의미를 가진 어휘의 시기별 사용 양상을 고찰한다. 예를 들어, 앞서 확인한 조선일보 고빈도 용언인 ‘여(如)하다’와 이에 대한 현대어 대응어 ‘같다’의 시기별 출현 빈도를 살펴보면, 여(如)하다’는 20세기 초에서 후반으로 갈수록 빈도가 감소하는 반면, ‘같다’는 증가한다.
– 세 번째로, 20세기 전반에 걸쳐 지속적으로 사용되는 어휘의 시기별 사용 양상 차이를 분석한다. 20세기 전반 신문 텍스트에서는 유사 문맥에서 사용되는 어휘들이 어떻게 다른지 어휘 목록을 추출하여 비교하고 각 어휘들의 의미와 용법 차이도 밝히도록 한다. 추출한 목록을 토대로 작성한 어휘들의 선후행 공기 관계 분석, 의미적 선호 분석, 의미 운율 분석, 연접 분석 등을 통하여 시기별 어휘 용법 차이를 밝힌다.

키워드:

신문 말뭉치, 통시 말뭉치, 용례 색인, 어휘 변화, 사전 미등재어, 20세기 전반기 한국어, 코사인 유사도

newspaper corpus, diachronic corpus, concordance, lexical change, unlisted word in the dictionary, first half of the 20th century Korean language, cosine similarity

Leave a Comment