Titans: attention을 개선하는 새로운 아키텍처?!

Titans: Learning to Memorize at Test Time
Ali Behrouz, Peilin Zhong, Vahab Mirrokni

https://doi.org/10.48550/arXiv.2501.00663

기존에 짧은 문장/문맥에 특화되어 있는 attention의 한계 돌파 가능?!

– 트랜스포머 구조 + 순환신경망(RNN) / 장기 메모리(long-term memory) 도입

– Core(단기 기억, attention) + Long-term Memory(장기 기억) + Persistent Memory(영구 기억)

– Surprise Metric(새로운 지식) + adaptive forgetting(망각)

– PyTorch + JAX –> 아직 모델 훈련-평가 코드 미공개

바로: Google!!! 무서운 녀석들…. 근데 이번 논문 제목은 센스가 없…. (Attention Is All You Need~ )

Leave a Comment