应用介绍
本工作提出一种可以长度泛化的稀疏注意力机制 GCA, 其核心在于可导的检索模块,可以有效处理 1000 倍于预训练长度的文本,首次实现在 16M 长度完美的大海捞针。虽然当前实验的模型规模较小,但期望该工作可以为机器如何实现永久记忆提供新的研究思路。
本工作提出一种可以长度泛化的稀疏注意力机制 GCA, 其核心在于可导的检索模块,可以有效处理 1000 倍于预训练长度的文本,首次实现在 16M 长度完美的大海捞针。虽然当前实验的模型规模较小,但期望该工作可以为机器如何实现永久记忆提供新的研究思路。