Omnilingual ASR: 메타의 1600개 언어 지원 오픈소스 음성인식 모델

https://ai.meta.com/blog/omnilingual-asr-advancing-automatic-speech-recognition https://github.com/facebookresearch/omnilingual-asr https://aidemos.atmeta.com/omnilingualasr/language-globe 온라인 도구: https://huggingface.co/spaces/facebook/omniasr-transcriptions 논문: https://ai.meta.com/research/publications/omnilingual-asr-open-source-multilingual-speech-recognition-for-1600-languages Meta AI가 1,600개 이상의 언어를 지원하는 새로운 자동 음성 인식(ASR) 기술인 ‘옴니링구얼 ASR(Omnilingual ASR)’을 공개했습니다. 이 기술의 주요 내용은 다음과 같습니다. 핵심 기능 및 성과: 기술적 특징: 의의 및 목표:

File Search Tool in Gemini API : 내 손안에 NotebookLM

https://blog.google/technology/developers/file-search-gemini-api 관리형 RAG 시스템: 파일 검색 도구는 Gemini API에 직접 내장된 완전 관리형 RAG(Retrieval-Augmented Generation, 검색 증강 생성) 시스템입니다. 개발 간소화: 이 도구는 RAG 파이프라인의 복잡한 과정(파일 저장, 청크화, 임베딩, 컨텍스트 주입 등)을 자동 관리하여 개발자가 더 쉽게 Gemini를 자신의 데이터와 연결할 수 있게 해줍니다. 비용 효율성: 쿼리 시점의 저장 및 임베딩 생성 비용은 무료입니다. … 더 읽기

EuroLLM: 유럽 언어 LLM

eurollm.io https://huggingface.co/blog/eurollm-team/eurollm-9b 바로: 현재 한국에서 진행중인 승자 선정형으로 진행된 것으로 보임. 승자 선정형은 정부 정보 비대칭, 시강 왜곡, 도덕적 해이 등의 분명한 문제가 있음. 그런데 한국처럼 기본적인 체급이 현실적으로 한계가 있는 상황에서는 반도체 시장 처럼 승자 선정형으로 갈 수 밖에 없는 한계도 분명히 있음…

Virtual Philosophers / 홍콩대

https://phil.bdsl.ai/philosopher 바로: 홍콩대학교 하비에르 차, 최동혁 선생님이 만든 동서양 철학자와의 대화 서비스. 다국어LLM 모델을 사용하여 한국어로도 질문 가능함. 구체적인 내용은 아직 설명 페이지 없어서 모름. 물어보기는…귀찮… -0-;;;

Chandra OCR

https://github.com/datalab-to/chandra 찬드라 (Chandra) 찬드라(Chandra)는 이미지와 PDF를 레이아웃 정보를 보존하면서 구조화된 HTML/Markdown/JSON으로 변환하는 매우 정확한 OCR 모델입니다. 특징

PaddleOCR

https://github.com/PaddlePaddle/PaddleOCR addleOCR은 문서와 이미지를 업계 최고 수준의 정확도로 JSON 및 Markdown과 같은 구조화되고 AI 친화적인 데이터로 변환하여, 전 세계 인디 개발자와 스타트업부터 대기업에 이르는 모두를 위한 AI 애플리케이션을 지원합니다. 50,000개 이상의 (GitHub) 스타를 획득하고 MinerU, RAGFlow, OmniParser와 같은 주요 프로젝트에 깊이 통합된 PaddleOCR은 AI 시대에 지능형 문서 애플리케이션을 구축하는 개발자들을 위한 최고의 솔루션이 되었습니다.

DeepSeek-OCR: Contexts Optical Compression

https://github.com/deepseek-ai/DeepSeek-OCR DeepSeek-OCR이란? (핵심 개념) 이름은 OCR이지만, 본질은 ‘문맥 광학 압축 (Contexts Optical Compression)’ 기술입니다. 2. 작동 방식 (두 단계) DeepSeek-OCR은 두 가지 주요 부분으로 구성됩니다. 3. 단순 OCR과의 차이점 이 모델은 단순히 글자만 따는 기존 OCR과는 근본적으로 다릅니다. 요약 DeepSeek-OCR은 “LLM의 긴 글 처리 문제를 ‘시각적 압축’이라는 새로운 방식으로 해결하려는 시도”이며, 그 첫 번째 적용 … 더 읽기

국립현대미술관 MMCA Research Lab

https://www.mmcaresearch.kr MMCA Research Lab MMCA 리서치랩은 한국 현대미술에 대한 지식과 정보를 공유하는 온라인 플랫폼입니다. 특히 1945년 이후부터 동시대까지 한국 현대미술의 전개 과정을 얼개로 삼아 한국미술에 대한 이해를 도모하고 연구하고자 합니다. 본 누리집은 연대기별 흐름을 정리한 ‘연표’, 새로운 주제를 발굴하여 심도 있는 연구 결과를 소개하는 ‘주제연구’, 주요 쟁점, 작가, 작품과 관련한 문헌 등을 소개하는 ‘에세이’, 한국미술 … 더 읽기

구글 노코딩 AI 미니 앱 빌더 ‘오팔(Opal)’ 한국 출시

“두 달 전, 구글은 구글 랩스(Google Labs)의 초기 실험으로 ‘오팔(Opal)’을 처음 선보였습니다. 오팔의 목표는 ‘코딩 없이’ 자연어만으로 AI 기반 미니 앱을 구축할 수 있는 기능을 이용자들에게 제공하는 것이었습니다. 올해 초 미국 이용자들을 대상으로 오팔을 공개할 당시만 해도 간단하고 재미있는 도구가 만들어질 것으로 예상했습니다. 하지만 실제로 저희는 기대 이상으로 정교하고 실용적이며 창의성이 돋보이는 오팔 기반 앱들이 … 더 읽기