박유정 / 성균관대학교 / 인문학 / 한국의 초중등 영어 학습자를 위한 아동 문학 기반 영어 지문/질문/답변 자동 생성 모델의 효과 연구 / 2024년도 중견연구자지원사업 예비선정
연구목표:
본 연구는 한국의 초중등 영어학습자들을 대상으로 영어교실에서 교사와 학생들이 쉽게 이용할 수 있는 아동 문학 기반 자동 생성형 읽기 프로그램을 개발하고 그 효과성을 검증하고자 계획되었다. 아동 문학을 기반으로 한 언어 교육은 아동 청소년 학습자들에게 풍부하고 진정성 있는 언어 사용을 제시하고 아동 청소년의 가치관 및 정체성 형성을 돕는 등 외국어 학습에 긍정적인 영향을 줄 수 있다(윤교찬, 2002; Cameron, 2001; Mart, 2012). 특히 영미권 아동 문학에서 제공하는 이야기들은 아동 청소년 학습자들을 대상으로 한 수업에서 언어 발달에 도움을 줄 수 있다는 연구들이 꾸준히 발표되었다(이도수, 1998; Alemi, 2011; Garvie, 1990; Nation et al., 2022; Wright, 1997). 그러나 학습자의 수준에 맞는 문학 작품을 사용하여 교육과정에 맞춘 수업을 구성하기가 쉽지 않고 어휘 및 문장의 수정 등 학습자들에게 적합한 자료로 수정하기 위해서는 교사들의 노력이 많이 필요하기 때문에 사교육 시장이 아닌 한국의 공립 영어 교실에서 아동 문학을 사용한 수업을 찾아보기는 매우 어려운 실정이다(김솔 외, 2017). 이러한 어려움은 최근 눈부시게 발전한 인공지능과 거대언어모델, 그리고 무료 데이터베이스의 손쉬운 접근가능성으로 상당 부분 극복할 수 있다고 생각하여 본 연구를 계획하게 되었다. 아동 문학 데이터베이스를 이용하여 학습자가 관심 주제에 맞는 작품을 선택할 수 있게 만들고 자동 생성형 인공지능을 통해서 지문 생성 및 교육 활동을 자동화 할 수 있다면 한국의 초중등 교사들이 이야기 기반 교육 모델을 더욱 체계적이고 손쉽게 이용할 수 있을 것이라고 생각하였다. 더불어 한국의 아동 청소년을 대상으로 아동 문학을 이용한 학습용 애플리케이션을 교사와 학생들의 사용자 경험에 맞추어 개발하고 업데이트한 후 한국 영어 교실에 적용하였을 때의 효과를 검증하고 공개 데이터셋으로 오픈하여 많은 교육자들과 연구자들이 사용할 수 있게 하고자 한다. 본 연구의 목표는 아래와 같이 네 가지로 요약할 수 있다.
첫째, 구텐베르그 프로젝트(Project Gutenberg)에서 제공하는 영미권 아동문학 데이터를 내려 받아(1574개 작품) 생성형 인공지능(GPT-3.5/4)를 사용하여 한국 아동 청소년의 교과수준과 어휘 수준 등에 맞게 작품을 수정하고 적절한 길이로 나눈 후 생성된 지문의 유효성을 평가한다.
둘째, 첫 단계에서 만들어진 이야기 지문과 함께 사용할 수 있는 학습 활동을 제공하기 위해서 2022 개정 영어교육과 교육과정에서 제시하는 독해 질문 유형을 바탕으로 각 지문에 맞는 질문-대답 쌍을 만들어보고 교사와 학생들을 대상으로 유효성을 평가한다.
셋째, 위 단계에서 구축된 프라이빗 데이터셋의 지문을 대상으로 소재 선정을 위한 토픽 모델링 기법 연구를 진행하여 추출된 단어를 토대로 토픽들의 명칭을 부여한다. 이를 통해서 교사나 학생들은 필요하거나 관심이 있는 토픽을 검색하여 해당 아동문학 작품을 선택하여 읽고 사용할 수 있도록 적절한 모델을 개발하고자 한다.
넷째, 지문-질문-대답 데이터셋 및 토픽 리스트를 본 연구를 위해서 제작한 홈페이지에 탑재하고 사용자(교사 및 학생) 피드백을 거쳐서 업데이트한 후 프로그램 사용 유무에 따른 통제집단과 실험집단의 영어 학습 성취도를 비교한다. 다양한 사전, 사후 시험을 통해서 교실 상황에서의 이야기 기반 언어 학습의 효과성을 실험할 수 있다. 본 연구에서 생성된 모든 데이터는 깃허브(GitHub)에 오픈데이터세트 형태로 무상 공개하여 미래에 관심 있는 연구자들이 사용할 수 있도록 할 것이다.
기대효과:
본 연구의 기대 효과는 크게 다음 네 가지로 요약할 수 있다. 첫째, 본 연구를 통해서 기존에는 유명하고 잘 알려진 작품 위주로 제공되었던 아동 문학 작품들을 교사 뿐 아니라 아동청소년 학습자들이 주제별 검색을 통해서 더욱 폭넓고 다양하게 접해볼 수 있게 될 것으로 기대한다. 아동 청소년들이 공감할 만한 주제를 창의적이고 생생하게 다루는 아동문학 작품의 높은 언어 교육적 효용 가치는 이미 많은 영어 교육 연구에서 입증하였다(본문 참조). 한국의 영어 학습자들은 주로 교실에서 교과서나 문제집 중심으로 영어를 배우게 되며 교과서 외의 다양한 영어 입력 자료가 매우 부족한 상황이다. 아동문학 텍스트는 다양하고 풍부하며 진정성 있는 언어를 제공할 수 있다는 장점을 가지고 있음에도 불구하고 적용의 어려움 때문에 영어 교실에서의 활용도가 매우 낮은 실정이다. 토픽별 검색을 통해서 적절한 수준의 흥미로운 지문을 선택하여 읽을 수 있다면 이러한 어려움을 어느 정도 극복할 수 있을 것이라고 기대한다. 영어 교육에 필요한 21세기 학습 역량으로 Herrmann(2015)는 비판적 사고력, 의사 소통 능력, 협력, 창조성 등을 꼽고 있는데 이야기 기반 영어 교육은 특히 이러한 21세기 학습 역량을 기르는데 도움이 될 수 있다. 다양한 문화적 상황을 제시함으로써 글로벌 시민 역량 함양을 위해 필요한 타 문화 존중을 가져올 수 있고 소통, 배려, 협력 등을 강조하는 학습 활동을 다양하게 계획할 수 있게 해주기 때문이다. 특히 본 연구의 3차년도에는 이야기 기반 영어 수업을 실제로 초등학교와 중학교에서 실시해 봄으로써 이러한 미래의 학습 역량들이 어떻게 함양될 수 있는지 구체적으로 고찰해볼 수 있을 것이다. 특히 다양한 주제의 이야기 지문을 읽음으로써 미래 사회에 필요한 휴머니즘, 인성, 감성 교육이 아동 문학 기반 영어 수업을 통해서 어떻게 구현될 수 있는지를 생각해 볼 것이다.
둘째, 아동 청소년 영어 학습자 교육을 위한 인공지능 기반 스마트 이야기 기반/문학 읽기 수업모델을 개발함으로써 미래 교육 현장에서 쉽게 적용 가능한 문학 텍스트 읽기활동을 제시할 수 있을 것으로 기대한다. 미래의 초중등 영어 교육은 디지털 기술을 활용한 다양한 교수학습 방법을 개발하고 적용할 수 있어야 한다(주형미, 2019). 한국의 미래형 학교에서는 서책형 교과서 외에 다양한 멀티미디어 및 모바일 기기를 활용한 교수학습 자료가 활발하게 사용될 것이며, 여러 학생들이 한 공간에 온라인 학습을 통해 다양한 수업을 받을 수 있을 것이라고 한다(교과부, 2022). 특히 미래의 디지털교과서의 형태는 서책형 교과서 기반이 아닌 교육과정 기반 콘텐츠를 제공할 수 있는 모습이어야 하며 개방형 구조의 교육 콘텐츠 플랫폼으로 개발되어야 하며 내년 3월부터는 AI 디지털교과서가 도입되어 사용될 예정에 있다. 본 연구에서 개발한 이야기 기반 읽기 수업모델과 같은 자동생성형 모델은 개방형 구조의 에듀테크와 교육 콘텐츠 제작에도 시사점을 줄 수 있을 것이라고 생각한다.
셋째, 토픽별로 지문 및 질문/대답을 자동으로 생성해주는 프로토타입(prototype)을 개발함으로서 영어 교사들은 적합한 지문을 고르고 질문/답변을 만드는데 들이는 시간과 노력을 절약할 수 있게 될 것으로 기대한다. 프롬프트 기반 프로그램은 전문적인 기술이 없이도 비교적 쉽게 이용할 수 있기 때문에 사용자의 필요에 따라서 지문의 난이도를 조절하고 교과과정에 적합한 과업을 만들 수 있다(Guo et al., 2023). 학생들은 본인의 속도에 따라서 과업을 해결할 수 있고, 개발된 프로그램에 자동채점 기능, text-to-voice 기능 및 풀이 제공을 추가적으로 제공한다면 학생들의 지문 이해도를 높일 수 있을 것이다. 이러한 프로그램의 개발은 궁극적으로 부족한 교사 재원 문제, 개별 학습 지원의 어려움, 지역 불균형 문제 등을 해소하는 데에도 어느 정도 기여할 수 있다.
마지막으로, 영어리딩앱의 수행도를 개선하기 위해서 추가적으로 머신러닝 실험을 함으로써 다양한 후속 연구를 할 수 있다. 공개적으로 이용 가능한 다른 코퍼스(e.g., Squad2.0-The standford question answering dataset)와 비교해봄으로써 지문-질문-답변을 생성하는 머신러닝 시스템의 퍼포먼스를 개선할 수 있다. 더불어 매년 업데이트되고 있는 질문 답변 평가 프로그램(Q-A evaluator)을 이용하거나 거대언어모델을 이용하여 전문가 개개인의 판단 없이도 GPT-3.5/4로 만들어진 질문과 답변의 정확성 및 신뢰도를 평가할 수 있다. 모든 데이터는 오픈데이터세트 형태로 무상 공개하여 미래의 연구자들과 교육자들이 본인의 필요에 맞는 교육 프로그램을 개발하는데 도움이 될 수 있을 것으로 기대한다.
연구요약:
본 연구는 인공지능을 활용한 아동 문학 텍스트 수정 및 활동 제시의 자동화를 통해서 이야기 기반 영어 교육이 한국 상황에서도 쉽게 접근가능하고 활성화될 수 있도록 도와주고자 계획하였다. 본 연구는 다음 네 가지 단계를 거쳐서 진행될 예정이다.
첫째, 공개 데이터셋인 구텐베르그 프로젝트에서 어린이 문학(children’s literature)을 키워드로 하여 데이터를 내려받아 전처리 과정을 거친 후 한국 아동 청소년 학습자들이 교과서에서 접하는 정도의 길이와 수준으로 이야기를 나누어 일차 데이터셋을 구축하고자 한다. 본 연구를 위해서 키워드 검색을 한 결과 해당 사이트에서 1574개의 아동문학 작품을 내려 받을 수 있었다. 이야기의 응집도나 이해도에 영향을 주지 않고 지문을 나누기 위해서는 다양한 프롬프트가 사용되어야 하는데 파일럿 테스트 결과(2024년 1월 시행), 100-250단어로 된 지문의 추출은 GPT-4보다 GPT-3.5의 결과물이 지문의 길이나 어휘 수준에 있어서 프롬프트를 더 충실히 따르는 경향이 있음을 확인하였다(자세한 결과는 본문 참조). 본 논문의 대상은 아동 청소년으로 이야기책을 즐겁게 읽을 수 있는 순간부터 15세에 이르는, 모든 잠재적, 실질적인 어린 문해력자들로 정의하고자 하며 초등학교 고학년 학생부터 중학교 학생들을 포함한다(성은창 외, 2023 참고). 이후 단계에서 지문-질문-답변 유형 및 토픽 모델링 모델 구현 후 실제로 사용자 경험을 토대로 사용자 범위는 축소되거나 확대될 수 있으나 가능하면 많은 학년 군에서 사용될 수 있도록 유연한 프로그램을 개발하고자 노력할 것이다.
둘째, 생성된 이야기 지문을 토대로 질문-답변 자동 생성 모델을 개발하고자 한다. 머신러닝 모델을 훈련시킬 수 있는 데이터셋이 많이 생기면서 신경망을 이용하여 소스텍스트, 답변까지 포함한 질문 생성이 가능해졌다 (Du et al., 2019; Li et al., 2019; Zhou et al, 2019). 최근에는 GPT-3/3.5/4를 사용하여 전문적인 지식이 없이도 누구나 쉽게 질문과 답변을 만들어내는 일이 가능해졌다. 본 연구에서는 각각의 지문에 해당하는 질문-대답을 생성하기 위해서 이미 훈련된 언어모델인 GPT-3.5를 활용하여 정제된 지문을 추출하고, 지문의 내용과 연관된 질문과 답변 쌍을 도출하고자 한다.
셋째로, 구축된 프라이빗 데이터셋의 지문에 대한 소재(subject/topic) 선정을 위한 토픽 모델링 기법 연구를 진행하고자 한다. 모든 지문의 데이터를 OCTIS 공개 라이브러리를 활용하여 전처리 한 후 각각의 지문에 Word2Vec을 활용하여 벡터 임베딩을 진행하고자 한다. Word2Vec은 인공신경망기법을 이용한 단어임베딩 학습모델로서, 단어들의 의미를 특정 차원의 벡터공간 모델에서 값으로 계산하고 표현하는 학습기법이다(Mikolov et al., 2013). 본 논문에서는 추출된 토픽들에 대한 명칭부여를 보다 정확하게 할 수 있도록 Word2Vec 기법을 토픽모델링과 융합한 형태의 토픽모델링 확장모형을 이용하고자 한다(윤상훈과 김근형, 2021 연구모델 참고). 토픽이 만족스럽게 추출되지 않을 경우 추가 주제 분류 테이터를 수집한 후 훈련하여 모델을 수립하고 구텐베르그 텍스트에 적용해서 사용 가능성을 생각해 볼 수 있다.
마지막으로, 3차년도에는 만들어진 데이터셋을 실제로 사용해 보고 사용자의 피드백을 통해서 프로그램을 업데이트한 후 본 연구를 위해서 생성한 공개 홈페이지에 탑재하여 교사와 학생들이 사용할 수 있게 만들 것이다. 이 때 인터페이스의 상호작용을 가능하게 하기 위해서 어려운 단어들을 바로 찾아볼 수 있게 하는 기능을 탑재하고 교사가 문제 추가 및 수정을 한 결과가 즉각적으로 홈페이지에 반영되도록 하는 기능 등을 넣는 것을 계획하고 있다. 미래 교육에 필요하다고 생각되는 복합양식텍스트를 구현하기 위해서는 이미지 생성 인공지능 프로그램을 이용하여 삽화를 추가하고 어려운 어휘에 단어 색인 기능도 탑재할 수 있을 것이다. 이는 학습자의 부족한 어휘 지식을 보완하고 흥미를 높이며 보다 높은 수준의 이해도를 달성하는데 도움이 될 수 있는데 교사나 학생들의 의견을 수렴한 후 홈페이지에 반영하고자 한다. 완성된 홈페이지는 최종적으로 한국의 초중등 영어교실에서 이야기 기반 영어 수업에 활용해 본 후 그 효과성을 보고자 한다. 이를 위해서 서울 소재의 초등학교 고학년 교실과 중학교 1학년 영어 교실에서 대략 4주 가량 이야기 기반 프로그램을 사용한 교과 수업(교과서 활동 대신 온라인 아동 문학 프로그램을 이용하여 수업 전, 후 활동을 포함한 수업)과 사용하지 않은 교과 수업(아동 문학 작품을 사용하지 않은 교사 주도의 교과서 중심 수업)을 사전/사후 평가를 통해서 평가해 본 후 학습 성취도 변화 및 영어 학습에 대한 동기 변화 등을 측정해 볼 예정이다.
키워드:
지문/질문/답변 자동 생성모델, 인공지능, 프로젝트 구텐버그, 프리트레인드 언어모델, 토픽 모델링, 이야기 기반 언어 학습
Automatic Passage-Question-Answer generation model, AI, project Gutenburg, Pretrained language model, Topic modeling, story based language learning