开源| Wall Attention:新型注意力机制突破长文本推理瓶颈,channels维度引入乘性衰减
talkingdev • 2026-06-03
1739 views
在处理长文本或长时间序列时,标准Transformer模型的内存占用和计算复杂度会随序列长度平方级增长,并面临信息稀释问题。GitHub上最新开源的“Wall Attention”项目提出了一种极具创新性的注意力变体机制:通过引入带有“乘性衰减”(multiplicative decay)的持久性“墙”(wall)记忆Token,为模型提供固定的参照锚点。这些特殊的墙Token不会在序列中滑动,而是独立存在,随着信息输入进行逐通道的衰减更新,从而在长距离依赖中保留并整合关键上下文。这一机制在数学上等价于为不同特征通道分配差异化的记忆衰减曲线,显著提升了模型在超长序列任务下的推理连贯性与效率,为LLM在处理百万级Token上下文时提供了新的工程化思路,具有重要的学术和工业应用价值。
核心要点
- Wall Attention在注意力计算中引入按通道(per-channel)独立控制的乘性衰减,解决了长上下文中信息的稀释问题。
- 通过设固定的“墙”Token作为持久记忆锚点,模型无需处理整个超长序列的平方级交互,显著降低了计算与内存开销。
- 该机制在保持模型容量不变的前提下,大幅提升了长文本推理任务(如文档分析、长对话)中的准确性与连续性。