[논문]Don’t Do RAG – cache-augmented generation (CAG) / 캐싱 기술로 돌파하라!

Don’t Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasks

– 외부 지식 자원을 활용하는 RAG보다 긴 컨텍스트 LLM과 캐싱 기술을 활용하는 cache-augmented generation (CAG)가 더 좋음.

– 컨텍스트 창은 점차 증가하고 있으며, 현재는 보통 10만 토큰은 넘고, 제미나이 1.5 Pro는 200만 토큰임.

– 물론 긴 프롬프트는 모델을 느리게 하고, 비용을 증가시킴. 그래서 고급 캐싱 기술이 필요함.