无需草稿模型,加速推测解码的新方法
talkingdev • 2023-09-12
1435041 views
语言模型推理通常较慢,因为这些模型的运行严重依赖内存。为了解决这一问题,人们引入了使用较小的草稿模型进行推测性解码,以“提前”提供给大模型的建议。这种方法效果不错,但实现起来复杂,且寻找一个好的草稿模型也非常困难。现在,我们可以创建一个Medusa模型,该模型通过分离各个内部阶段的激活来充当自身的草稿。这种方法使得Llama的速度提升了两倍,同时并没有影响其性能。
核心要点
- 语言模型推理通常因为严重依赖内存而运行缓慢。
- 采用小草稿模型进行推测性解码可以提前为大模型提供建议,但实施困难。
- 新的Medusa模型可以通过分离各个内部阶段的激活充当自身的草稿,从而提升了Llama的运行速度,且未影响其性能。