ExLlama:HF Transformers实现的内存更高效的量化权重重写
talkingdev • 2023-06-26
1660711 views
ExLlama是HF Transformers实现的一种内存更高效的量化权重重写。这个重写的目的是为了在使用量化权重时能够更好地节省内存。Llama是HF Transformers的一个开源项目,但在使用量化权重时存在内存占用较高的问题。ExLlama通过对Llama进行重写,实现了对量化权重的更高效利用。这将使得在使用量化权重时,模型的内存占用可以得到有效控制,提高模型的运行效率。
核心要点
- ExLlama是HF Transformers实现的内存更高效的量化权重重写
- 重写的目的是为了在使用量化权重时能够更好地节省内存
- ExLlama通过对Llama进行重写,实现了对量化权重的更高效利用