KV Quant - 缩放至1000万个令牌 talkingdev • 2024-02-21 969900 views KV缓存的量化是Transformer架构的一个技术细节,它使其在推理时使用更少的内存。量化是在最小损失质量的情况下缩小浮点精度。 核心要点 KV Quant是Transformer架构的一个技术细节 KV Quant可以使模型在推理时使用更少的内存 量化是缩小浮点精度以降低内存使用的一种方法 Read more > 查看原文