无需草稿模型，加速推测解码的新方法

talkingdev • 2023-09-12

1435041 views

语言模型推理通常较慢，因为这些模型的运行严重依赖内存。为了解决这一问题，人们引入了使用较小的草稿模型进行推测性解码，以“提前”提供给大模型的建议。这种方法效果不错，但实现起来复杂，且寻找一个好的草稿模型也非常困难。现在，我们可以创建一个Medusa模型，该模型通过分离各个内部阶段的激活来充当自身的草稿。这种方法使得Llama的速度提升了两倍，同时并没有影响其性能。

核心要点

语言模型推理通常因为严重依赖内存而运行缓慢。
采用小草稿模型进行推测性解码可以提前为大模型提供建议，但实施困难。
新的Medusa模型可以通过分离各个内部阶段的激活充当自身的草稿，从而提升了Llama的运行速度，且未影响其性能。

无需草稿模型，加速推测解码的新方法

核心要点

Related posts