微信扫码实时跟踪AI前沿
ExLlama是HF Transformers实现的一种内存更高效的量化权重重写。这个重写的目的是为了在使用量化权重时能够更好地节省内存。Llama是HF Transformers的一个开源项目,但在使用量化权重时存在内存占用较高的问题。ExLl...