量化的相关内容 - 漫话开发者

2024-03-04 talkingdev

关于LLM量化的全面研究

随着人工智能模型的不断发展，越来越多的研究人员开始研究如何在不影响模型准确性的前提下，提高模型的计算效率和内存利用率。LLM量化是一种后训练量化技术，可以使像OPT和LLaMA2这样的大型语言模型更具内存和计算效...

2024-02-29 talkingdev

IR-QLoRA是一种新方法，它可以提高量化大型语言模型的准确性，使它们更适合在资源有限的设备上使用。量化是一种通过降低浮点精度来减少计算资源需求的技术。虽然这种方法可以大大减少模型的计算量和存储空间，但它也...

2024-02-21 talkingdev

KV缓存的量化是Transformer架构的一个技术细节，它使其在推理时使用更少的内存。量化是在最小损失质量的情况下缩小浮点精度。

2024-02-20 talkingdev

Qwen团队发布了两个新的语言模型，分别是1.8B和72B的LLMs，与Llama 2相似，这些模型训练了3T个标记，并且在许多任务上表现出色。除了发布聊天版本和量化版本外，这些模型还在推理、数学和代码方面表现出色。

2024-02-01 talkingdev

使用较低精度的模型训练速度更快、更便宜，但不稳定。最近有很多关于量化训练的研究。这个代码库建立在这些基础上，提供易于阅读和可修改的代码，实现浮点8训练。

2024-02-01 talkingdev

本周，Mistral公司的CEO确认了Mistral的一个量化版本文件在HuggingFace上泄露，该技术使得在较弱的电脑和芯片上运行某些AI模型成为可能。据报道，该模型在EQ-Bench上超过了全球所有其他LLM模型，仅次于GPT-4。Mistra...

2024-01-31 talkingdev

近日，一款名为SliceGPT的新一代模型压缩工具问世。据悉，该工具可以适用于从Phi-2等小型模型到大型模型的多种规模，并可对模型的权重矩阵进行剪枝处理，最大程度保持模型质量的同时，实现模型参数的大幅度减少，以...

2024-01-12 talkingdev

Unsloth是一个轻量化库，可加速语言模型的微调。它现在可以轻松地与TRL在常见的模型架构上配合使用。Unsloth库通过一个简单的API使得模型训练和微调更快速。它可以帮助从训练数据中自动学习、优化和微调模型，使得模...