速度提升的相关内容 - 漫话开发者

2023-12-20 talkingdev

斯坦福发布新序列混合器

Mamba的创建者（以及许多其他模型）发布了一篇很专业的博客文章，概述了基本的序列混合架构，相对于标准Transformer，可以获得相当大的速度提升。该团队的新模型使用了这种混合方法，并且获得了非常好的性能。这种新...

2023-12-12 talkingdev

随着开放模型在许多企业任务中变得有用，人们开始探索部署优化。然而，这个领域很复杂且分散。本文深入探讨了许多用于加速语言模型服务的标准技术。

2023-11-07 talkingdev

Deepspeed推出了一款新软件，旨在与vLLM和文本生成界面竞争，以快速提供语言模型服务。该软件配备了许多最先进的加速功能，初步结果表明，速度提升了2.4倍。

2023-10-26 talkingdev

研究人员发现，当前领先的开源文本图像模型SDXL在推理时间上有了显著的加速，其速度提升了60%，同时体积缩小了50%。研究人员声称，在使用中，图像质量只有轻微的降低。

2023-10-23 talkingdev

IBM已经开发出一款大脑启发式的电脑芯片（NorthPole），它通过减少对外部记忆的访问，显著提高了AI的速度和效率。

2023-09-12 talkingdev

语言模型推理通常较慢，因为这些模型的运行严重依赖内存。为了解决这一问题，人们引入了使用较小的草稿模型进行推测性解码，以“提前”提供给大模型的建议。这种方法效果不错，但实现起来复杂，且寻找一个好的草稿模型...

2023-08-31 talkingdev

近日，一篇深度解析如何使用PyTorch 2.0的torch.compile和Nvidia CUDA图表功能提升深度学习模型性能的文章引起了广泛关注。该文章详细介绍了借助CUDA图表在Llama 2上实现了2.3倍的速度提升。这对于对性能敏感的AI从...

2023-07-12 talkingdev

AI模型包含许多参数，它们在计算机中以十进制数字的形式表示。这些数字的精度决定了它们的准确度和占用的空间大小。如果将精度从32位降低到16位，将会大幅提高运行速度。现在，我们可以将精度降低到4位，从而在一些...