Medusa模型的相关内容 - 漫话开发者

2023-09-12 talkingdev

无需草稿模型，加速推测解码的新方法

语言模型推理通常较慢，因为这些模型的运行严重依赖内存。为了解决这一问题，人们引入了使用较小的草稿模型进行推测性解码，以“提前”提供给大模型的建议。这种方法效果不错，但实现起来复杂，且寻找一个好的草稿模型...