강범일 / 현대국어의 변화 양상 연구 / 2024년도 인문사회학술연구교수(A유형) 예비선정

강범일 / 연세대학교 / 인문학 / 현대국어의 변화 양상 연구 / 2024년도 인문사회학술연구교수(A유형) 예비선정

연구목표:

본 연구는 갑오개혁 이후부터 현재까지를 아우르는 ‘현대 국어 코퍼스’를 구축하고, 통시 코퍼스 분석에 적용 가능한 코퍼스 언어학 및 통계 방법론을 사용하여 현대 국어의 변화 양상을 추적해 보는 것을 목적으로 한다. 장기간에 걸친 언어의 변화를 탐구하는 일은 언어학의 지평을 넓히고, 언어와 사회·문화의 관계를 보다 심도 있게 조명할 수 있는 계기를 마련한다는 점에서 큰 의의가 있다. 그러나 이러한 중요성에도 불구하고 한국어의 통시적 변화를 추적한 연구는 드물고 특히 갑오개혁 이후의 국어를 일컫는 현대 국어 내에서 일어났던 변화를 거시적인 관점에서 조망한 연구는 더욱 희소하다. 현대 국어의 태동 이후 서구의 근대적 제도와 사상이 도입되고 일제 강점기와 한국 전쟁, 산업화, 민주화 시기를 거치면서 우리 사회는 급격한 변화를 겪었으며 이러한 변화는 당대의 언어에 고스란히 반영되었을 가능성이 큼에도 불구하고 통시 연구에서 현대 국어는 고대나 중세, 근대 국어에 비해 주목을 받지 못했다. 따라서 이 시기에 일어났던 한국어의 변화에 대한 종합적이고 체계적인 접근이 필요하리라 생각된다.
그동안 이러한 연구가 수행되기 어려웠던 이유로는 초기 현대 국어 연구를 위한 자료의 부족과 분석 방법론의 부재를 꼽을 수 있다. 그러나 최근 들어 디지털 인문학 분야가 각광을 받기 시작하면서 해당 시기의 많은 자료들이 관련 기관의 주도하에 디지타이즈되고 있는 상황을 고려할 때 과거에 비해 자료를 확보하기는 한층 더 수월할 것으로 예상된다. 따라서 현 시점에서 언어 연구에 활용할 수 있는 현대 국어 자료를 총망라해 보고 이를 수집하여 코퍼스로 구축하는 것이 첫 번째 과제가 될 것이다. 다음으로는 표기, 어휘, 문법에 극심한 변이가 존재했던 20세기 전반기 한국어 처리를 위한 기술을 개발할 것이다. 이러한 변이를 정규화하지 않은 채 정량적 분석을 한다는 것은 사실상 불가능에 가깝기 때문이다. 이와 같이 현대 국어 코퍼스가 구축되고 특정 시기 자료에 특화된 기술을 개발하여 적용함으로써 모든 시기에 대해 표준화된 언어 주석이 이루어지게 되면 현대 국어 전 시기를 단일 분석 프레임워크를 통해 분석하는 것이 가능해질 것이다. 나아가 언어 변화 분석에 사용되어 온 기존의 방법론을 체계화하고 한국어 특성에 맞게 구현, 적용함으로써 어휘, 의미, 문법 영역의 변화상을 입체적으로 조명해 볼 것이다.
그동안의 한국어 통시 연구는 대체로 현대 국어 이전 시기나, 현재와 가까운 최근 시기의 변화에 주목해 왔다. 현대 국어 전반의 문법 변화를 다룬 연구가 존재하기는 하지만 질적 분석에 의존한 것이었고, 코퍼스에 기반한 연구의 대부분은 단기 통시적인 관점에서 연구자에 의해 선택된 특정 자질을 중심으로 연구된 결과였다. 본 지원자의 대표 업적에서 비교적 긴 기간에 걸친 코퍼스를 기반으로 한국어 변화를 관찰하였지만 단일 매체에 국한한 접근이었고, 관련 기술의 부재로 인해 완전한 자료 정제가 이루어지지 않은 채로 진행된 연구라는 한계가 있었다. 본 연구는 이러한 한계를 극복하고자 대규모 통시 코퍼스를 구축하여 보다 정교한 언어 주석을 부가하고 이를 바탕으로 계량적 분석을 시도한다. 이것을 통해 개별적인 현대 국어 변화 양상의 객관성과 신뢰성을 높일 수 있는 것은 물론이고 나아가 거시적 관점에서 현대 국어 전체의 변화 양상을 조명함으로써 기존 연구들에서 발견할 수 없었던 새로운 통찰을 얻을 수 있게 될 것으로 기대한다.

기대효과:

본 연구 결과의 기대 효과는 다음과 같다.
첫째, 현대 국어의 통시적 연구에 대한 새로운 지평을 열 것으로 기대된다. 1894년부터 현재까지의 현대 국어 코퍼스를 구축하고, 20세기 전반기의 한국어 분석을 위한 기술을 개발하는 것은 현대 국어의 통시적 분석에 가장 큰 걸림돌이었던 자료의 부족과 기술의 부재를 극복하는 일이라는 점에서 큰 의의가 있다. 꼭 통시 연구를 목적으로 하지 않더라도 과거의 특정 시기 연구를 위해 적절한 자료와 기술을 활용할 수 있게 된다는 점에서 이 연구는 현대 국어의 종합적이고 체계적인 분석 기반을 마련한 연구로 평가될 수 있을 것이다. 또한 그동안 단편적으로 이루어져 왔던 질적 분석 기반의 결과들을 검증하고 거시적인 관점의 새로운 통찰을 이끌어낼 수 있는 토대가 될 것이다.
둘째, 국어학뿐만 아니라 다양한 분야에 광범위한 파급력을 미칠 것으로 기대된다. 언어의 변화는 사회, 문화, 정치, 경제 등의 변화와 필연적으로 맞물려 있으므로 이 연구를 통해 생산된 자료와 분석 결과는 역사학, 사회학, 정치학 등 다양한 분야의 연구자들에 의해 활용될 수 있을 것이다. 나아가 자료 처리 기술의 공개를 통해 그동안 디지털 인문학 분야에서 20세기 전반기 한국어의 언어적 특성을 간과한 채 현대의 도구들을 무비판적으로 사용해 왔던 문제를 해소하는 결정적 계기가 될 수 있을 것으로 예측된다.
셋째, 국어사전 편찬 작업의 중요한 지식 기반이 될 것으로 기대된다. 형태적 신어의 출현과 정착, 사멸 정보, 그리고 어휘 의미 변화 정보는 사전 편찬에 활용될 수 있는 귀중한 지식이다. 코퍼스 기반의 연구 결과이므로 다양한 용례가 동반되며 이를 통해 용례가 없거나 작성례만 존재하는 표제어에 대한 보다 실제적인 사용 정보를 제공할 수 있게 된다. 연구의 중간 결과물들을 통해서 여러 종류의 새로운 사전 편찬도 가능할 것이다. 예를 들어 형태소 분석기가 다양한 표기를 표준화하여 처리할 수 있도록 20세기 전반기의 단어 표기 방식에 대한 정보가 구축될 것인데 이를 이용해 해당 시기에 특화된 이표기 사전 제작이 가능하다.
넷째, 20세기 한국어 자료 기반 연구의 새로운 가능성이 모색될 것으로 기대된다. 본 연구를 통해 산출될 자동 띄어쓰기 모델, 형태소 분석기, 시대별 신어 및 키워드 목록 등의 결과물은 연구 윤리를 준수하는 가운데 대중들이 쉽게 접근할 수 있는 방식으로 공개될 것이다. 특히 언어 주석이 포함된 대규모 현대 국어 코퍼스를 온라인에 공개하여 자유로운 검색과 활용이 가능하도록 할 것이다. 이와 같은 20세기 한국어 자료에 대한 접근성 확보를 통해, 기존에는 수행되기 어려웠던 새로운 연구 주제들이 발굴되는 등 다양한 관점에서 창의적이고 융합적인 탐구가 가능해질 것으로 전망된다.

연구요약:

본 연구의 내용 및 절차를 요약하면 다음과 같다.
첫 번째 단계는 갑오개혁부터 현재까지의 현대 국어 코퍼스를 구축하는 일이다. 보다 구체적으로는 1894년부터 2023년까지의 자료를 수집하고 최대한 연속적으로 충분한 분량을 구축하는 것을 목표로 할 것이다. 전 시기에 걸쳐 높은 수준의 장르적 균형성을 확보하는 것은 요원하겠지만 최소한 시기적 균형성을 확보할 수 있도록 최대한의 자원을 수집해 볼 것이다. 웹 문서 수집이나 기관 협조를 통해 20세기 중반까지의 자료를 입수하는 것을 중점으로 할 것이며 코퍼스 구축을 위한 종이 자료의 디지털화는 고려하지 않을 것이다.
두 번째는 20세기 전반기 한국어를 분석할 수 있는 한국어 처리 기술을 개발하는 일이다. 코퍼스 구축과 더불어 통시 연구를 위한 기반을 마련하는 차원에서 반드시 필요한 단계로 띄어쓰기 교정, 마침표 삽입, 형태소 분석을 자동화하는 기술을 개발한다. 문장 단위, 어절 단위, 형태소 단위를 자동으로 분리해 내는 것을 목표로 한다. 본 연구에서 개발하려고 하는 한국어 처리 기술은 최근 뛰어난 성능을 보이고 있는 딥러닝 기반의 기술들과는 그 성격과 구현 절차가 다르다. 20세기 전반기 한국어에 대해서는 기본적으로 사전 훈련 모델이 존재하지 않고 마땅한 학습용 자료 또한 구축되어 있지 않다. 따라서 기본적으로 기계학습 모델을 활용하되 학습용 자료를 직접 구축하고 전처리 또는 후처리 단계에서 규칙이나 사전 기반 처리를 적용해야 할 것으로 보인다. 기술 개발이 완료되면 이를 이용해 코퍼스 전체를 대상으로 언어 정보를 주석한다.
세 번째는 코퍼스 기반 통시적 언어 분석에 적용할 수 있는 방법론을 종합하여 한국어의 특성에 맞게 체계화하고 적용하는 단계이다. 구체적으로는 본 연구가 분석 대상으로 삼는 어휘 및 문법 단위의 변화 양상을 조사하는 데 사용할 수 있는 정량적 분석 방법론을 모색한다. 코퍼스 언어학 분야에서 개발된 방법론을 중심으로 살펴보되 디지털 인문학 및 사회과학 분야의 연구 방법론을 참고하여 보완한다. 연구자의 주관적인 판단 없이 자료로부터 출발하여 변화 양상을 기술하는 상향식 분석을 지향한다. 방법론이 수립되고 나면 코퍼스에 적용하여 정량적인 결과를 도출한다.
네 번째는 정량적인 분석 결과에 대해 질적 검토를 수행하여 신뢰도 높은 언어 변화 양상을 기술하는 단계이다. 코퍼스 분석 방법을 적용한 결과는 대개 언어 단위의 목록과 빈도로 요약되는 경우가 대부분이다. 그러나 단순히 이러한 정량적 정보만을 기반으로 결론을 도출해서는 안 되며, 기술 대상 언어 단위가 출현한 문맥을 살피는 과정을 통해 관찰된 현상의 실제성을 파악해야 한다. 또한 질적 연구 방법론을 통해 조사된 선행 연구들의 결과와 비교하여 검증해 보는 절차도 필요할 것이다. 세 번째와 네 번째 단계를 통해서는 탐색적 코퍼스 분석을 통한 언어 형식의 변화를 탐색하고, 형태적 신어의 출현-공인화-정착의 과정을 추적할 것이다. 시기별 키워드를 추출하고 어휘 의미, 문법, 문체의 거시적인 변화를 살펴볼 것이다.
마지막으로는 앞선 단계를 통해 획득하게 될 다양한 언어 자질을 기반으로 하여 현대 국어의 하위 시기를 구분해 볼 것이다. 130년 가까이 진행되고 있는 현대 국어는 특정 시점을 중심으로 언어적 특성이 달라져 왔다. 연구자에 따라 사용하는 용어와 분기점 설정에는 차이가 있지만 태동기, 확립기, 안정기와 같이 하위 시기를 설정해 왔고 이러한 구분은 대개 질적 분석에 의존한 결과였다. 본 연구에서는 앞선 분석을 통해 얻은 각종 언어 자질을 사용해 연도별 텍스트를 계층적으로 군집화하고 이를 바탕으로 현대 국어의 하위 시기를 설정해 볼 것이다.

키워드:

현대 국어, 언어 변화, 통시 코퍼스, 코퍼스 언어학, 디지털 인문학, 형태소 분석

Modern Korean, language change, diachronic corpus, corpus linguistics, digital humanities, morphological analysis

Leave a Comment