Don’t Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasks
https://doi.org/10.48550/arXiv.2412.15605
– 외부 지식 자원을 활용하는 RAG보다 긴 컨텍스트 LLM과 캐싱 기술을 활용하는 cache-augmented generation (CAG)가 더 좋음.
– 컨텍스트 창은 점차 증가하고 있으며, 현재는 보통 10만 토큰은 넘고, 제미나이 1.5 Pro는 200만 토큰임.
– 물론 긴 프롬프트는 모델을 느리게 하고, 비용을 증가시킴. 그래서 고급 캐싱 기술이 필요함.