推理速度的相关内容 - 漫话开发者

2024-02-09 talkingdev

MobileVLM，为移动设备量身打造的先进视觉语言模型

MobileVLM V2是一系列为移动设备量身打造的先进视觉语言模型，通过创新的架构展示了显著的性能提升。新的MobileVLM V2拥有更快的推理速度，更高的准确性和更广泛的应用场景。MobileVLM V2不仅支持图像和文本之间的交...

2024-01-25 talkingdev

本文简要介绍了硬件特定的矩阵乘法优化和一般流程，以加速AI代码。现代深度学习算法中，矩阵乘法是常见的操作。优化矩阵乘法的实现可以显著提高模型的训练和推理速度，进而提高模型的准确性和效率。矩阵乘法优化的主...

2024-01-21 talkingdev

LMSYS发布了两项语言模型推理的新技术。第一项是对后端进行的改进，提高了每秒的标记总数性能。第二项是嵌入式领域特定语言，用于复杂提示技术，允许并行提示。

2023-12-12 talkingdev

随着开放模型在许多企业任务中变得有用，人们开始探索部署优化。然而，这个领域很复杂且分散。本文深入探讨了许多用于加速语言模型服务的标准技术。

2023-11-23 talkingdev

加速自回归语言模型推理的方式有很多。人们正在热衷于使用草稿模型的一种方式。这需要两个模型，但速度可能会更慢。然而，通过从相同模型生成相关的n-gram，可以减轻对草稿模型的需求，并使生成速度线性加快。

2023-10-18 talkingdev

近日，HuggingFace diffusers轻量快速推理引擎在GitHub上线。该引擎通过许多小改进，实现了大幅提升推理速度的目标，声称每秒可达60步，比原来的23步快了许多。该引擎在自然语言处理任务中表现优异，受到了许多开发...

2023-06-12 talkingdev

近日，研究人员提出了一种名为Sparse-Quantized Representation（SpQR）的新技术，可以实现对大型语言模型（LLMs）的几乎无损压缩，克服了量化带来的精度损失。这项技术使得强大的LLMs可以在像笔记本电脑和手机这样...

2023-06-05 talkingdev

近日，谷歌通过基因搜索算法和海量TPU的使用，开发出了一种新的模型——Brainformer，其收敛速度比传统的Transformer模型快5倍，推理速度快2倍。这种模型使用了MoE模块和一些其他巧妙的技巧，充分发挥了TPU的强大性能...