应用介绍
在该实验中,所有模型都仅在不超过 16K 的上下文进行预训练,baseline 囊括了包含 sliding window attention 等主流注意力机制。基于 GCA 的模型无论在简单大海捞针,还是更复杂的变量追踪任务,都保持了稳定的外推能力。
在该实验中,所有模型都仅在不超过 16K 的上下文进行预训练,baseline 囊括了包含 sliding window attention 等主流注意力机制。基于 GCA 的模型无论在简单大海捞针,还是更复杂的变量追踪任务,都保持了稳定的外推能力。