생성형AI 환상 순위: LLM Confabulation (Hallucination) Leaderboard for RAG

https://github.com/lechmazur/confabulations

해당 기사는 대규모 언어 모델(LLM)이 오해의 소지가 있는 질문에 응답할 때 얼마나 자주 존재하지 않는 답변, 즉 허구 또는 환각을 생성하는지 평가하기 위한 벤치마크에 관한 것입니다. 질문은 LLM 훈련 데이터에 아직 포함되지 않은 최근 기사를 기반으로 합니다. RAG(검색 증강 생성)를 사용할 때는 이러한 허구를 최소화하는 것이 중요합니다. 2025년 2월 10일 현재, 제공된 텍스트에 답변이 없는 것으로 사람이 확인한 201개의 질문이 신중하게 선별되고 평가되었습니다. 벤치마크는 동일한 프롬프트와 문서를 사용하지만 텍스트에 있는 특정 질문을 사용하여 LLM 무응답률도 추적합니다.

요약행위자: gemini adv 2.0 flash. 2025.04.21.

바로: 구글 사랑해요~~~!!! (먼산)

단순히 데이터를 많~~이 때려 넣고, 죽도록 학습 시키는 것의 한계가 온 것일까? 그 다음은 무엇일까? 컨텍스트 양의 차이인가? 혹은 인간에 대입하며, 가장 미친”놈” 발생 가능성이 높은 직군 중 하나가 교수인것과 같은 것일까?! -0-;;

근데 언어 기반 모델의 발전은 이정도면 된 것 아닐까? 아예 세계모델을 때려 넣는 것이 아닌 이상 언어만의 기반 모델로는 이 정도면 충분하지 않을까? 최소한 텍스트 기반 모델에서는 각 도메인 영역 특화로 가야하지는 않을까?

참조: https://openai.com/index/o3-o4-mini-system-card

Leave a Comment