微信扫码实时跟踪AI前沿
近期,一项关于大语言模型(LLM)上下文学习(ICL)能力的研究取得了重要突破。研究人员提出了一种理论框架,解释了非线性残差变换器如何通过向量算术执行事实召回ICL任务。该研究基于分层概念建模,证明了通过梯度...