남지순 / 초거대언어모델의 자연어추론(NLI)을 위한 한국어 학습데이터셋 구축 연구 / 2024년도 중견연구자지원사업

남지순 / 한국외국어대학교(글로벌캠퍼스) / 인문학 / 초거대언어모델의 자연어추론(NLI)을 위한 한국어 학습데이터셋 구축 연구 / 2024년도 중견연구자지원사업 예비선정

연구목표:

본 연구는, 초거대언어모델(Large Language Model: LLM)의 자연어추론(Natural Language Inference: NLI)을 위한 한국어 학습데이터셋을 구축 개발하는 데에 있어서, 특히 한국어의 언어적 특징을 고려하여 ‘전제(premise)/가설(hypothesis)’의 문장쌍을 구축하기 위한, 언어적 특징 및 스키마를 기술하고 이를 토대로 신뢰할 수 있는 한국어 NLI 데이터셋(KoLinNLI)을 구축하는 것을 목표로 한다. 현재 다양한 분야에서 우수한 성능을 보이고 있는 LLM의 가장 취약한 영역의 하나인 자연어추론 분야는 아직도 많은 연구를 필요로 하고 있으며, 이를 위한 고품질의 학습데이터셋을 구축하기 위한 노력이 계속되고 있으나, 특히 한국어 이해를 위한 언어자원은 상대적으로 매우 제한된 양상을 보이고 있기 때문이다.
실제로 언어모델이 자연어처리 분야에서 특히 자연어이해(NLU)를 수행하기 위해서는 인간과 같이 ‘의미(meaning)’를 표현하는 다양한 방식과 중의적 문제를 이해할 수 있어야 하며, 주어진 명제(proposition)의 의미를 파악하여 새로 제시된 명제의 ‘진리가(truth value)’를 추론(infer)할 수 있어야 한다. 자연어추론(NLI)을 위한 학습데이터는 여러 영역에서의 자연어이해 성능을 향상시키는 연구에 중요할뿐 아니라, 데이터의 양이 충분하지 않은 그외 다양한 응용분야에서도 ‘추론’을 바탕으로 그 간극을 채워줄 수 있는 중요한 역할을 수행할 수 있음이 검증된 바 있다(Laurer et al. 2022). NLI 데이터는 규칙기반 접근법에 기반하는 전통적인 방식에서 발전하여, BERT와 같은 초거대언어모델(LLM)의 발전과 더불어 이를 위한 대규모 방식의 데이터셋 구축 영역으로 변화하였다. 스탠포드대학의 Stanford-NLI(SNLI) 데이터셋(Bowman et al. 2015)과 Multi-NLI(MNLI) 데이터셋(Williams et al. 2018)이 그 대표적인 사례이다. 최근에 오면서는 이러한 NLI 벤치마크 데이터셋 구축에 언어학적 고찰이 반영된 언어 정보가 반영되어야 한다는 성찰이 일어나기 시작하였고, 특히 McCoy et al.(2019)에서 주장하는 바와 같이, 현재의 데이터셋은 언어학적 성찰이 충분히 반영되지 않은 크라우드소싱에 의한 단순 구축물로서, 언어모델이 아주 피상적인 수준의 휴리스틱한 학습에 의존해 NLI를 수행할 수 있다는 문제점이 지적되기 시작하였다.
이러한 논의들이 대체로 영어를 중심으로 하는 언어 특징에 초점을 맞추어 이루어져 왔다는 점에서, 한국어 고유의 언어학적 특징을 반영한 LLM 모델의 추론 성능을 높이기 위한 추론학습 데이터셋 구축은 매우 중요한 이슈이다. 한국어의 경우, 영어의 SNLI 데이터와 MNLI 데이터를 자동번역하여 구축한 KorNLI 데이터셋(Ham et al. 2020)과 KLUE 프로젝트에서 구축된 추론데이터셋(Park et al. 2021)이 발표된 바 있으나, 한국어 고유의 언어학적 특징을 고려한 정교한 NLI 데이터셋 구축에 대한 논의가 본격적으로 수행된 연구를 찾아보기 어렵다.
본 연구에서는 언어모델의 추론 학습 데이터셋을 구축하는 데에 있어, 한국어 고유의 본질적인 언어적 특징을 정교하게 반영한 데이터를 구축하기 위해서 어떠한 언어 특징이 검토되고 반영되어야 하는지를 제안한다. 이후, 기존의 한국어 NLI 데이터셋에 기반하여 파인튜닝된 언어모델들과 본 연구에서 제안하는 새로운 KoLinNLI 데이터셋을 기반으로 학습된 언어모델의 성능을 비교 평가하는 과정을 진행한다. 이를 통해 한국어 언어모델의 추론 성능을 향상하기 위한 학습데이터에 어떠한 언어적 정보와 지식이 반영되어야 하는지 그 의의와 필요성을 다시한번 확인할 수 있을 것이며, 그외의 다양한 한국어 처리 태스크에 어떠한 의의를 갖게 될 것인지를 확인할 수 있을 것으로 기대된다.

기대효과:

[1] 정교한 LLM 학습데이터 구축 방법론 제안

첫째, 본 연구를 통해, 한국어 LLM 언어모델의 학습데이터 구축시, 크라우드소싱의 대용량 데이터셋 구축의 한계를 넘어 언어학적 특성을 반영하는 정교한 데이터셋을 구축하는 방법론을 제시한다. 언어모델의 자연어추론(NLI) 성능을 향상하기 위해 현재 구축되어 있는 학습데이터셋은 대부분 아마존 메커니컬터크(Mechnical Turk)와 같은 크라우드소싱에 의해 구축된 대용량 데이터셋의 특징을 보이고 있다. NLI 데이터셋은 추론 학습을 위해 ‘전제문(premise)’과 ‘가설문(hypothesis)’의 문장쌍으로 구성된 데이터로서, 웹에서 수집된 ‘전제문’을 토대로 ‘가설문’을 생성하게 된다. 즉 크라우드소싱에 의해 일련의 추론 관계의 문장쌍을 생성하도록 하는데, 비전문적인 인력에 의한 대량 생산에 초점을 두고 있기 때문에, 학습데이터의 낮은 퀄리티 및 편향적 데이터 구축 등의 문제가 발생하게 된다(McCoy et al. 2019). 본 연구에서는, 이와 같은 학습데이터 구축 접근법의 한계를 넘어, 언어학적 특성을 반영하는 정교한 NLI 데이터셋을 구축하는 구체적인 방법론을 제시함으로써, 향후 다양한 영역의 학습데이터 구축에 확장ㆍ적용될 수 있는 범용의 아카데믹한 접근법을 제시할 것으로 기대된다.

[2] NLU 시스템의 언어추론 성능의 향상

둘째, 본 연구에서 제안되는 학습데이터를 통해 실제 활용분야의 다양한 자연어이해(NLU) 시스템에서 요구되는 추론 모델의 성능을 향상시킬 수 있다는 점이다. 자연어처리(NLP)에서 ‘언어이해’는 아직 많은 부분의 향상이 요구되지만, 실제 언어와 관련된 다양한 지적 작업을 수행하는 데에 있어 매우 중요한 부분을 차지하고 있다. 특히 자연어추론(NLI)은 사람의 질문에 대해 자동으로 응답하는 질의응답시스템(Q&A System)에서 상대방의 질문의 의도를 파악하기 위해서 매우 중요한 요소가 되며, 또한 자동요약(Automatic Summarization)과 같은 분야에서도 문장들 사이의 추론 관계를 이해하는 능력은 해당 분야의 성능을 향상시키는 데에 매우 중요한 요소가 되기 때문이다. 응답문의 진리가가 실제 지식 및 정보와 부합되는지를 이해하고 추론하여 그 진위를 밝혀줄 수 있기 때문에, 시스템의 신뢰도를 향상하는 데 중요한 요인이 된다. 이에 따라 팩트 검증(Fact Verification)과 가짜뉴스 추출(Fake News Detection)과 같은 연구 영역에서도 이러한 추론 성능은 핵심적인 요소가 된다(Lin 2023). 본 연구의 추론 학습데이터를 활용한 언어이해 시스템은 이와 같이 다양한 영역의 NLU 기반 연구 영역에서 학문적으로 중요한 의의를 가질 뿐 아니라, 산업 및 사회적 측면에서도 사용자의 질문에 응답하거나 요청에 대한 효율적인 처리를 수행할 수 있는 다양한 교육ㆍ사회ㆍ법률ㆍ의료 등의 영역의 시스템의 성능 향상에도 중요한 의의를 가질 것으로 기대된다.

[3] 데이터 언어학자 후학 인재 양성

셋째, LLM 모델 학습을 위한 데이터 구축에 있어 데이터 언어학자(Data Linguist) 후학 인재 양성 및 향후 언어이해 후속 연구와의 연계성에 중요한 기여를 할 것으로 기대된다. 본 연구에서는 기존 데이터를 관찰하고 이로부터 언어학적 특징을 분석하는 과정 및 이를 바탕으로 핵심적인 스키마를 구축하는 과정, 그리고 이를 바탕으로 실제 데이터를 구축하는 과정 및 언어속성 검증 등을 통한 데이터 검수 보완 과정에서 학석사 재학생들이 핵심 역할을 수행할 계획이다. 이를 통해 향후 LLM 모델에서 요구되는 정교한 언어데이터를 구축할 수 있는 언어학적 직관을 겸비한 전산언어학자 또는 데이터 언어학자 인재를 양성하고, 후속 연구를 지속적으로 수행할 수 있을 것으로 기대된다. 본 연구에서 도출되는 연구 성과에 기반하여 학석사 학생들의 학위논문 및 국내외 학술대회에서의 연구논문 발표가 수행될 예정이며, 이는 전산학 배경에서 수행되는 언어모델 연구 및 크라우드소싱에 의한 데이터 구축의 양분된 현실에서, 전산언어학적 지식을 겸비한 중요한 미래 인재를 육성한다는 점에서 중요한 의의를 가진다고 판단된다.

연구요약:

[연구목표]

본 연구는 LLM 언어모델의 추론 성능 향상을 위해 한국어 고유의 언어속성을 반영한 스키마를 구현하고, 이를 바탕으로 체계적으로 디자인된 한국어 추론 학습데이터 KoLinNLI를 구축하는 방법론을 제안한다.

[연구내용 및 연구방법]

1차년도에는 한국어 NLI 추론을 위한 언어속성 스키마 구축 방법론에 대해 연구한다.

■ 첫 단계에서, 본 연구에서는 기존의 KLUE 한국어 추론쌍 데이터와 KorNLI 데이터에서 표본을 수집하여 1차 데이터 분석을 수행한다. 이들은 웹문서에서 수집된 전제문(P) 문장에 대해 크라우드워커들에 의한 가설문(H) 생성, 또는 영어 추론쌍의 자동번역을 통해 획득된 한국어 추론쌍의 특징을 갖기 때문에 여기서 나타나는 다양한 한계점들을 분석, 판단하는 것이 중요하다.

■ 두번째 단계에서는, 영어의 대표적 데이터인 SNLI와 MNLI외에, 언어속성을 고려한 추론쌍의 구축을 주장한 HANS 데이터(McCoy et al. 2019) 연구를 분석한다. HANS는 언어학적으로 중의적이고 복잡한 구문에 대해 언어모델이 얼마나 정확히 추론을 할 수 있는가를 실험하기 위해 구축되었는데, 이는 영어의 특징에 기반하고 있어, 한국어의 경우 어떠한 관점에서 이러한 검증이 필요한지 선행 연구가 수반되어야 한다. 단순 어휘 집합의 유사성에 기반한 휴리스틱한 추론은 엄밀한 의미에서 언어모델이 자연어추론을 수행할 수 있는 성능이라고 판단할 수 없으므로, 이러한 검증을 위한 한국어 특징을 분석 연구한다.

■ 마지막 단계로, 한국어 추론쌍 구축시 고려되어야 하는 언어속성들에 대한 기술이 수행되면, 이를 바탕으로 한국어 고유의 언어속성 스키마 구성이 진행된다. 한국어 통사ㆍ의미ㆍ어휘적 언어속성에 대한 상세한 하위분류를 토대로 추론쌍 구축을 위한 스키마를 구현한다.

2차년도에는 LLM 언어모델의 한국어 추론을 위한 실제 한국어 추론 학습데이터셋 KoLinNLI를 구축한다.

■ 첫 단계에서는, 1차년도에 진행된 기존 한국어 NLI 데이터에서 추출된 표본을 토대로 전제문(P)의 기본 문형을 구성한다. 1차적으로 1,000 추론쌍 규모의 표본을 랜덤 추출하여, 여기 나타나는 전제문 문장들의 ‘도메인 다양성 고려, 문장 길이 고려, 문장의 통사적 구성(단문/복문), 서술어 특징’ 등을 토대로 기본 문장 유형을 구성한다. 여기서는 기존의 KorNLI와 KLUE 데이터로부터 관찰되는 문장들을 토대로 전체 3,000여개의 1차 데이터를 구성한다.

■ 두번째 단계에서, 이상에서 구성된 전제문(P) 데이터에 대응되는 가설문(H)의 생성을 진행한다. 3,000여개의 문장에 대해 ‘함의/모순/중립’의 3가지 추론 관계를 고려하여 약 9,000개의 추론쌍이 구성되도록 한다. 이때 가설문 구축은 앞서 1차년도에 연구된 언어속성 스키마에 기반하여 진행된다. 예를 들어 ‘함의(entailment)’ 관계는 주어진 전제문의 ‘등위접속, 관계절, 명사구 수식, 부사구 출현’ 등의 복합문 구조로부터 재구성된 다양한 서브 유형들에 대한 스키마를 기반으로 생성된다. 반면 ‘모순(contradiction)’ 관계는 ‘부정소에 의한 대립명제, 논항 명사구에 대한 반의어 사용, 서술어의 반의어, 상하위어의 모순적 대비, 수량 표현의 모순, 부사구 수식의 모순, 주어와 목적어의 교체’ 등의 기재를 통해 기술되는 스키마를 기반으로 생성된다.

■ 마지막 단계에서, 한국어 보편의존파서를 사용하여 앞서 구현된 언어속성 스키마의 통사적 유형별 문장을 부트스트랩 방식으로 추출하여 데이터셋을 확장한다. 앞서 구축된 3,000여개의 전제문에 더하여, 통사적 구조에 기반하여 2,000여개의 전제문이 추가 확장되어, 그 결과 5,000여개의 전제문이 구성되고, 이에 대하여 3개의 레이블에 대한 추론쌍이 구축된다. 궁극적으로 이러한 과정을 통해 15,000개의 한국어 추론쌍이 구축된다. 한국어 추론 학습데이터 KoLinNLI가 구축되면, 이를 토대로 BERT 계열의 언어모델들에 대한 파인튜닝을 실행하여 기존 데이터 기반 추론 모델과 그 성능면에서 어떠한 차별점을 보이는지 추가적인 연구를 수행한다.

키워드:

자연어추론(NLI), 언어속성 스키마, 한국어 추론 학습데이터, 언어모델 데이터, 함의, 모순

Natural Language Inference(NLI), Linguistic-Feature based Schema, Korean NLI dataset, Language Model Data, Entailment, Contradiction

Leave a Comment