편향 측정 데이터셋: Shades of Bias in Text Dataset

대규모 언어 모델(Large Language Models, LLMs)은 많은 “인공지능”(AI) 애플리케이션의 기반이지만, 훈련 데이터에 존재하는 사회적 편견을 그대로 재현하는 것으로 알려져 있습니다. 그러나 이러한 문제를 측정하고 통제하며 완화하기 위한 자원은 제한적입니다. 스테레오타입 편견을 식별하고 완화하는 연구는 주로 영어에 집중되어 왔으며, 다국어 환경에서 LLM의 급속한 발전을 따라가지 못하고 있습니다. AI 시스템에서 스테레오타입 편견을 감지하는 능력을 더욱 발전시키기 위해, … Read more

[국립중앙도서관] 디지털인문학 데이터지원 대상자료 연계 과제 수요조사 안내

신청링크: https://nl.go.kr/rink/contents/R10202000000.do 바로: 여러분들…당장 쓰지 않더라도, 많이 귀찮으시더라도, (일단 무지성으로) 많은 신청을 해주시면, 담당자가 행복하고, 오픈 데이터의 미래도 열립니다!! 안녕하십니까, 국립중앙도서관 연구정보실입니다. 국립중앙도서관은 국가장서를 활용한 국내외 연구자의 학술연구활동을 지원하고, 연구자가 연구에 집중할 수 있도록 연구정보서비스를 운영하고 있습니다. 국립중앙도서관에서는 연구자 및 차세대연구자의 디지털인문학 융합연구 지원을 위해, ‘2025 고문헌(근대자료) 원문텍스트 데이터베이스 구축 자료’의 데이터를 활용한 연계 과제 … Read more

누리IDT 고문헌 漢字 시스템

https://ocr.nuriidt.co.kr 누리IDT 고문헌 한자 시스템은 고문헌 한자에 특화된 문자 인식 AI 모델을 사용하여 한자 텍스트를 추출합니다. 또한, 인공지능을 이용하여 문자를 추출하고 디지털 텍스트로 변환하는 고문헌 OCR 서비스를 제공합니다. 이 서비스는 띄어쓰기가 없는 고문헌 한문을 의미적으로 분절하여 표점을 찍어줌으로써 문맥을 쉽게 파악할 수 있도록 도와줍니다. 자동표점과 자동번역은 제약이 있기는 하지만 무료로 사용 가능합니다. 다만, OCR은 구매를 … Read more

[Database] Online Database of English Translations of Korean Literature

We are pleased to announce that an Online Database of English Translations of Korean Literature is now open to the public. Developed over three years (2022-2025), it is currently the most user-friendly, extensive, and accurate database of English translations of Korean literature. We believe that this database will serve as a vital tool for researchers, educators, students of … Read more

한국한자 종합검색시스템 / 단국대 동양학연구원

https://oriental-dic.dankook.ac.kr ▲『한국한자어사전(1996)』 ▲『이두사전(2020)』 ▲『한국한자자전(2023)』을 집대성해 온라인으로 서비스할 수 있도록 구성한 통합 검색 플랫폼 『한국한자어사전』과 『한국한자자전』에 수록된 한국식 한자 표제어 85,000여 개와 용례 74,000여 개, 『이두사전』의 이두어휘 약 4,200여 개와 이두용례 12,000여 개를 포함하고 있어 국내 최대의 한국한자 관련 데이터를 수록 기존 한자 유니코드에 등재되지 않거나 폰트가 없는 약 2,300자의 신출 한자는 단국대가 자체 개발한 ‘DK한국한자’ … Read more

RAWGraphs – 온라인 데이터 시각화 무료 도구

https://www.rawgraphs.io https://www.rawgraphs.io/learning https://github.com/rawgraphs RAWGraphs is an open source data visualization framework built with the goal of making the visual representation of complex data easy for everyone. RAWGraphs는 모든 사람이 복잡한 데이터의 시각적 표현을 쉽게 만들 수 있도록 하는 것을 목표로 구축된 오픈 소스 데이터 시각화 프레임워크입니다. 주로 디자이너와 시각화 전문가(vis geeks)를 위한 도구로 구상된 RAWGraphs는 … Read more

일본 고문 AI_KARAMARU(からまる)/Soan(そあん)

일본 Center for Open Data in the Humanities와 Sakana AI가 합작한 AI 모델 AI 모델 “카라마루(からまる)” 한국어 요약 (Gemini 2.5 Pro 활용) url: https://sakana.ai/karamaru/  Sakana AI가 개발한 **카라마루(からまる)**는 에도 시대(江戸時代)의 고문(古文) 스타일로 대화할 수 있는 챗봇입니다. 주요 특징: 기대 효과: 카라마루는 현대인이 과거의 문화를 더 가깝게 느끼고 이해할 수 있도록 돕는 도구로서, 연구와 교육 분야에 … Read more

DEArt: Dataset of European Art

Large datasets that were made publicly available to the research community over the last 20 years have been a key enabling factor for the advances in deep learning algorithms for NLP or computer vision. These datasets are generally pairs of aligned image / manually annotated metadata, where images are photographs of everyday life. Scholarly and … Read more

Various Japanese Books

Japanese classical books, namely classical texts of Japan, boast a long history spanning over 1,200 years. Their diversity and the large number of existing copies are rare worldwide. The National Institute of Japanese Literature regularly holds “Various Japanese Books,” which is now accessible in cyberspace, offering exhibits that allow for an understanding of the fundamentals … Read more

DH Awards 2024 Voting

Please vote for the following resources from 2024 in the DH Awards 2024. Anyone is allowed to vote (once). Have a look over the resources in each category and then fill out the form linked to at the bottom of the page in order to vote. For frequently asked questions please see http://dhawards.org/dhawards2024/faqs/ for more information. We are sorry if your … Read more