일본 Center for Open Data in the Humanities와 Sakana AI가 합작한 AI 모델
AI 모델 “카라마루(からまる)” 한국어 요약 (Gemini 2.5 Pro 활용)
url: https://sakana.ai/karamaru/
Sakana AI가 개발한 **카라마루(からまる)**는 에도 시대(江戸時代)의 고문(古文) 스타일로 대화할 수 있는 챗봇입니다.
주요 특징:
- 에도 시대 스타일 대화: 현대 일본어로 질문하면, 에도 시대의 세계관과 당시의 고문 스타일 텍스트로 답변합니다.
- 몰입감 높은 경험: 단순히 문체만 흉내 내는 것이 아니라, 내용 자체에 에도 시대의 세계관이 반영되어 있어 과거 문화에 대한 몰입감 높은 대화를 즐길 수 있습니다.
- 학습 데이터:
- 에도 시대 서적 등 수천 점 이상의 자료를 바탕으로 약 2,500만 자 규모의 ‘에도 텍스트 데이터셋’을 구축했습니다.
- 이 데이터셋은 인간이 직접 판독(翻刻)한 약 1,300만 자와 AI 흘림체 OCR(AIくずし字OCR)로 판독한 약 1,200만 자로 구성됩니다.
- 기존 대규모 언어 모델(LLM)에 이 데이터셋을 추가 학습(継続学習)시키는 방식을 사용했습니다. (베이스 모델: Llama-3-ELYZA-JP-8B)
- 독창성:
- 기존 LLM에 단순히 “에도 시대 스타일로 답해줘”라고 요청하는 것과 달리, 카라마루는 학습을 통해 내용과 형식 모두에서 일관된 에도 시대 스타일을 구현합니다.
- 에도 시대에는 없었던 개념(예: 스마트폰)에 대해 질문해도, 당시의 어휘를 조합하여 설명하려고 시도하며 독특한 표현을 생성합니다.
- 이름 유래: 에도 시대의 유명 출판인 츠타야 주자부로(蔦屋重三郎)가 희작(戯作)을 쓸 때 사용했던 필명 ‘츠타노카라마루(蔦唐丸)’에서 따왔습니다. 또한 LLM이 수많은 단어와 개념이 복잡하게 ‘얽혀(絡まる, 카라마루)’ 학습됨을 의미하기도 합니다.
- 활용 목적 및 공개:
- 연구 및 교육 목적으로 개발되었습니다.
- Hugging Face 사이트를 통해 모델과 데모가 공개되어 있어 누구나 사용해 볼 수 있습니다.
- 에도 시대 문화 연구(텍스트 검색, 번역, 분류 등)나 역사 교육 자료로 활용될 잠재력이 있습니다.
기대 효과:
카라마루는 현대인이 과거의 문화를 더 가깝게 느끼고 이해할 수 있도록 돕는 도구로서, 연구와 교육 분야에 널리 활용될 것으로 기대됩니다. AI만의 기능을 통해 시간을 초월하여 과거 문화 유산에 대한 접근성을 높이는 데 기여할 것입니다.
고문 흘림체 이미지 생성 AI, Soan(そあん)
