Don’t Do RAG – cache-augmented generation (CAG) / 캐싱 기술로 돌파하라!
Don’t Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasks https://doi.org/10.48550/arXiv.2412.15605 – 외부 지식 자원을 활용하는 RAG보다 긴 컨텍스트 LLM과 캐싱 기술을 활용하는 cache-augmented generation (CAG)가 더 좋음. – 컨텍스트 창은 점차 증가하고 있으며, 현재는 보통 10만 토큰은 넘고, 제미나이 1.5 Pro는 200만 토큰임. – 물론 긴 프롬프트는 모델을 느리게 하고, 비용을 … Read more