Transformer的相关内容 - 漫话开发者

2024-06-20 talkingdev

Logit Prisms：分解Transformer输出以提高解释性

Logit Lens方法已经得到了增强，该方法通过分解logit输出，帮助我们理解Transformer模型的决策过程。这种方法使用“prisms”来处理残差流，注意力层和MLP层，揭示了这些部分如何影响预测，并为gemma-2b模型执行的诸如...

2024-06-12 talkingdev

当前，大多数用于Transformers的计算花费在线性层上。这项工作利用muP和Monarch矩阵构建了一个结构化表示，不仅减少了计算量，而且比原始的密集层拥有更好的扩展规则。这项技术可以提高计算效率，降低运算成本，为AI...

2024-05-23 talkingdev

Mamba作为一种强大的Transformer替代方案，因其能够在保持性能的同时使用更少的FLOPs而备受关注。然而，最新研究表明，对于某些应用来说，Mamba可能并非必需。该研究通过实验表明，一个经过精心调优的CNN基线在一系...

2024-05-22 talkingdev

LeMeViT是一种新的方法，通过使用可学习元令牌来降低视觉Transformer的计算成本。这些元令牌能够高效地捕捉关键信息，从而显著提高推理速度。与传统的视觉Transformer相比，LeMeViT在保持高精度的同时，大幅减少了计...

2024-05-21 talkingdev

近日，研究人员发现了一种针对视觉变换器（Vision Transformers）的新型安全威胁。这种被命名为“SWARM”的攻击手法，利用一个“切换令牌”秘密激活模型中的后门行为，使其对用户具有高度的隐蔽性和危险性。视觉变换器是...

2024-05-16 talkingdev

最新研发的混元-DiT在文本到图像扩散变换器方面设立了新的标杆，特别是对于英文和汉文。这一技术特征包括先进的变换器结构和精炼的数据管道，为持续的模型改进提供了可能性。而这一突破性的发展，不仅提升了英汉文本...

2024-05-10 talkingdev

YOCO架构是一种具有全局注意力能力的解码器-解码器模型，能有效地降低GPU内存需求。它包含一个自解码器和一个交叉解码器，使得关键-值对的缓存和复用更加高效。与传统的Transformer相比，YOCO在推理内存、延迟和吞吐...

2024-05-02 talkingdev

如今，多层感知器在人工智能领域得到了广泛的应用，包括在Transformer的关注层之间。然而，它们使用的是固定的激活函数。最新研究论文建议在边缘使用学习的激活函数，利用科尔莫戈洛夫-阿诺德表示法（函数可以由更简...