推理速度的相关内容 - 漫话开发者

2024-05-21 talkingdev

论文：LeMeViT利用可学习的元Token实现快速视觉变换器

最近，一种名为LeMeViT的新方法用于降低视觉变换器中的计算成本，其核心策略是使用可学习的元令牌。这些令牌能够有效地捕获关键信息，从而提高推理速度。视觉变换器在计算机视觉领域有着广泛的应用，然而其计算成本...

2024-05-09 talkingdev

Consistency LLM是一种新的自然语言处理模型，可以将其转换为并行解码器，从而将推理时间缩短至3.5倍。LLM模型是一种具有良好性能的模型，但推理速度较慢。该研究团队将LLM转换为并行解码器，使用了一种名为一致性训...

2024-04-02 talkingdev

英伟达在其GitHub仓库Optimum-Nvidia中发布了TensorRT的最新更新，这一更新使得AI推理速度大幅提高，达到了比基线快28倍的速度。特别是在Llama 2的基准测试中，能够达到每秒处理1200个令牌的惊人速度。这一进步得益...

2024-03-18 talkingdev

本文深入探讨了基于变换器的语言模型推理的“光速”理论极限，强调了内存带宽相较于计算能力的重要性。文章通过实例展示了推理速度主要受限于从内存中读取数据的能力，而非执行计算的速度，这对于优化和理解AI性能是一...

2024-03-11 talkingdev

微软的强大DeepSpeed训练库更新了，可以让模型每个参数使用6位。这可以将推理速度提升超过2倍。

2024-03-05 talkingdev

Unsloth 项目旨在重写训练和推理语言模型的重要内核。它发布了一个示例，其中包括 Google 开源的 Gemma 模型的代码。通过使用 Unsolth，Gemma 的训练速度可以提高 2.4 倍。这个项目的目标是通过修改模型的内核，实现...

2024-03-04 talkingdev

如何加速推理是许多人关注的话题。本代码分享介绍了如何通过静态KV缓存提高Hugging Face框架上Llama模型的推理速度。

2024-02-19 talkingdev

最近，研究人员提出了一种新方法，称为SLEB，可以通过剪枝冗余的变压器块来加速大型语言模型（LLMs）的训练和推理。该方法可以减少存储空间和计算成本，同时保持模型的准确性。SLEB通过自适应的剪枝技术来删除冗余的...