KADH / 한국디지털인문학협의회

Data Commons / 구글의 오픈지식 그래프 플랫폼

2024-12-18 by Baro

https://datacommons.org Data Commons란 무엇인가? Data Commons는 데이터를 서로 연결하고 공유하기 쉽게 만들고자 하는 오픈 소스 프로젝트입니다. 마치 거대한 지식 그래프 (Knowledge Graph)와 같다고 할 수 있죠. 다양한 분야의 데이터를 한 곳에 모아 연결하고, 이를 통해 새로운 통찰력을 얻고 문제를 해결하는 데 도움을 주고자 합니다. Data Commons의 목표 Data Commons의 주요 특징 Data Commons의 기술적인 내용 … Read more

Showcasing the Japan Biographical Database (JBDB)

2024-10-10 by 김병준

Showcasing the Japan Biographical Database (JBDB) Place: In person (Sophia University: Bldg. 2, 4th Floor, Room 414) and on Zoom (for link see below) Date: 9 November 2024 Time: 10:00 until 17:30 (Tokyo time) Zoom Link: Topic: Showcasing the Japan Biographical Database (JBDB) Time: 9 Nov. 2024 (opens 09:30 AM) Tokyo https://sophia-ac-jp.zoom.us/j/91601237353 Meeting ID: 916 0123 7353 … Read more

DraCor API 1.0 (유럽 희곡 말뭉치)

2023-12-06 by 김병준

유럽의 희곡(Drama) 말뭉치 DraCor 1.0 공개. DraCor (Drama Corpus Project) 는 유럽의 25개 언어로 된 희곡 말뭉치로 단순 말뭉치를 넘어 TEI-XML 태깅까지 된 양질의 데이터. 최근 API 1.0을 공개하면서 더 활용도가 증가하였음. Computaional Literary Studies(전산문학연구)에 가장 중요한 게 데이터 태깅과 구축임을 보여줌. 관련 링크 : https://weltliteratur.net/streamlining-the-dracor-api/

승정원 일기 NER 모델 (Nara-Lab/History_NER)

2023-08-02 by 김병준

NARA.Labs 나라지식정보부설연구소 (naraai.net)에서 개발 승정원 일기 기반 한문 개체명 인식(NER) 모델 허깅페이스 링크: Nara-Lab/History_NER · Hugging Face 관련 논문 : [2306.14592] Transfer Learning across Several Centuries: Machine and Historian Integrated Method to Decipher Royal Secretary’s Diary (arxiv.org)

ALBERTI (LM For Poetry)

2023-07-11 by 김병준

여러 언어의 시(詩) 말뭉치로 학습한 BERT 모델. 영어를 포함한 유럽어와 아랍어, 중국어 시 포함. “ALBERTI is a set of two BERT-based multilingual model for poetry. One for verses and another one for stanzas. This model has been further trained with the PULPO corpus for verses using Flax, including training scripts.” linhd-postdata/alberti-bert-base-multilingual-cased · Hugging Face [2307.01387] … Read more

[Open Data] 타이완 고궁박물관

2023-06-27 by Baro

https://theme.npm.edu.tw/opendata/ 타이완 고궁 박물관의 Open Data 서비스이다. 타이완 고궁 박물관은 중화민국이 타이완으로 도망치면서, 당시에 가장 귀중한 중국 유물을 거의 다 가져왔기에, 중국 유물의 정수가 있다는 곳이다. 그런 곳에서 Open Data를 수행하고 있다. Open 데이터이기에, 신청도, 용도 제한도, 비용지불조차 없다. 더 구체적으로 100만개의 CC0(완전 공개)와 600만개의 CCBY(저작권표기) 데이터가 공개되어 있다. 심지어는 2020년에 일본 유명 게임인 동물의 … Read more

전송문 (全宋文), 전원문(全元文) 목차 파일 다운로드

2023-06-15 by 김병준

CBDB의 주관 기관 중에 하나인 미국 하버드 대학에서 기계가독이 가능한 전원문(全元文: 중국 원나라 시기[1271-1368]에 쓰여진 모든 글을 모아 편집한 자료)의 목차 파일를 공개하였습니다. 또, 이전에 이미 공개가 되었지만, 이 기회에 전송문(全宋文, 중국 송나라 시기[960-1279]에 쓰여진 모든 글의 모아 편집한 자료)의 목차 파일도 다시 공지 되었습니다. 아래 링크를 통해서 접근 가능합니다 전원문: https://projects.iq.harvard.edu/cbdb/data-sets전송문: 대만 송사 연구 … Read more

한국학자료통합플랫폼(KDP)

2023-05-03 by 김병준

한국학중앙연구원의 <한국학자료통합플랫폼(Korean Studies Data Platform, KDP)> 한국사데이터베이스, 국립중앙도서관 등 여러군데 흩어져있는 한국학자료를 한번에 모아볼 수 있는 플랫폼. 한국학자료통합플랫폼 (aks.ac.kr)

[AI HUB] 2023 1차 인공지능 학습용 데이터 공개 (고서한자 OCR 포함)

2023-04-30 by 김병준

AI HUB에 공개된 2023년 1차 인공지능 학습용 데이터 공개. 고서한자 OCR 데이터가 특히 도움될 것. 고서한자 OCR

[데이터] 콘텐츠에 활용 가능한 전통문양 4,451건 무료 개방

2023-04-10 by 김병준

“문화체육관광부(이하 문체부)는 한국문화정보원(원장 홍희경, 이하 문정원)과 함께 4월 7일(금), 누구나 저작권 걱정 없이 메타버스 콘텐츠 제작에 활용할 수 있는 전통문양 3D 데이터 4,451건을 구축해 ‘문체부 메타버스 데이터랩(www.culture.go.kr/datametaverse)’과 전 세계 콘텐츠 개발자들이 사용하고 있는 3D 제작 작업도구 ‘언리얼 엔진’의 마켓플레이스(www.unrealengin.com/marketplace)에서 무료로 개방한다.” https://www.koya-culture.com/news/article.html?no=139950