静态KV缓存实现HF推理速度2倍提升
talkingdev • 2024-03-04
935079 views
如何加速推理是许多人关注的话题。本代码分享介绍了如何通过静态KV缓存提高Hugging Face框架上Llama模型的推理速度。
核心要点
- 分享了一个可用于提高Hugging Face框架上Llama模型推理速度的代码。
- 该代码利用静态KV缓存的方法实现推理速度提升2倍。
- 通过该技术,可以进一步拓展模型应用的场景。
talkingdev • 2024-03-04
935079 views
如何加速推理是许多人关注的话题。本代码分享介绍了如何通过静态KV缓存提高Hugging Face框架上Llama模型的推理速度。