https://github.com/google-research/inksight
InkSight is an offline-to-online handwriting conversion system that transforms photos of handwritten text into digital ink through a Vision Transformer (ViT) and mT5 encoder-decoder architecture. By combining reading and writing priors in a multi-task training framework, our models process handwritten content without requiring specialized equipment, handling diverse writing styles and backgrounds. The system supports both word-level and full-page conversion, enabling practical digitization of physical notes into searchable, editable digital formats. In this repository we provide the model weights of Small-p, dataset, and example inference code.
InkSight는 Vision Transformer(ViT) 및 mT5 인코더-디코더 아키텍처를 통해 손글씨 텍스트 사진을 디지털 잉크로 변환하는 오프라인-온라인 필기 변환 시스템입니다. 멀티태스크 학습 프레임워크에서 읽기 및 쓰기 사전 지식을 결합함으로써 InkSight 모델은 특수 장비 없이도 다양한 필기 스타일과 배경을 처리하여 손글씨 콘텐츠를 처리합니다. 이 시스템은 단어 수준 및 전체 페이지 변환을 모두 지원하여 실제 노트를 검색 가능하고 편집 가능한 디지털 형식으로 실질적으로 디지털화할 수 있도록 합니다.
출처: “한국어로 번역해”. Gemini Advanced 2.0 Experimental Advanced. 2025.01.30.