Titans: Learning to Memorize at Test Time
Ali Behrouz, Peilin Zhong, Vahab Mirrokni
https://doi.org/10.48550/arXiv.2501.00663
기존에 짧은 문장/문맥에 특화되어 있는 attention의 한계 돌파 가능?!
– 트랜스포머 구조 + 순환신경망(RNN) / 장기 메모리(long-term memory) 도입
– Core(단기 기억, attention) + Long-term Memory(장기 기억) + Persistent Memory(영구 기억)
– Surprise Metric(새로운 지식) + adaptive forgetting(망각)
– PyTorch + JAX –> 아직 모델 훈련-평가 코드 미공개
바로: Google!!! 무서운 녀석들…. 근데 이번 논문 제목은 센스가 없…. (Attention Is All You Need~ )