模型量化的相关内容 - 漫话开发者

2026-05-04 talkingdev

开源|AutoRound：10分钟单GPU搞定7B大模型量化，极致压缩精度不减

在大型语言模型（LLM）和视觉语言模型（VLM）部署中，模型量化是降低计算和存储成本的关键技术。然而，传统量化方法往往需要在模型大小和推理精度之间做出艰难取舍，尤其是在超低位宽（如2-bit、3-bit）下，精度损失...

2026-04-02 talkingdev

富士通研究院近日开源了名为“OneCompression”（简称OneComp）的Python库，这是一个专门用于大语言模型后训练量化的工具。该库集成了当前最先进的量化算法，包括GPTQ和DBF，旨在帮助开发者和研究人员高效地将庞大的LL...

2025-10-13 talkingdev

微软近日在GitHub开源社区正式发布《Edge AI for Beginners》系列课程，该项目专为人工智能初学者设计，系统性地介绍了边缘计算与AI结合的完整技术栈。课程内容涵盖边缘AI基础架构、主流轻量级模型（如MobileNet、Ti...

2025-08-09 talkingdev

OpenAI首席执行官Sam Altman近日透露，ChatGPT每周服务用户量已达7亿人次，而普通开发者甚至难以在本地单机运行一个GPT-4级别的模型。这引发了技术社区对超大规模AI服务背后工程架构的热议。专家分析指出，支撑这一...

2025-06-16 talkingdev

PyTorch官方博客最新发布的ParetoQ训练算法在低比特量化领域取得重大突破。该技术首次实现了二元（1-bit）、三元（1.58-bit）和2至4位量化的统一框架，并在所有量化级别上均达到当前最优性能。这一突破性进展尤其适...

2025-05-14 talkingdev

人工智能平台Hugging Face近日发布了一项突破性的语音转录服务——Whisper极速端点（Fast Whisper Endpoint）。这项创新技术通过优化模型架构和计算资源分配，实现了高达8倍的转录速度提升，为语音处理领域树立了新的...

2025-05-07 talkingdev

近期，Hugging Face发布了一项名为AutoRound的后训练量化技术，该技术能够在保持模型性能和效率的同时，显著提升低比特量化模型的精度。这一突破性进展为边缘计算和移动端设备部署轻量级AI模型提供了新的可能性，解...

2025-04-07 talkingdev

Unsloth团队针对DeepSeek最新R1模型成功开发出创新量化方案，其核心突破在于将混合专家（MoE）层压缩至惊人的1.58bit，同时通过动态量化技术保持其他模块在4-6bit精度。研究发现，模型Tokenizer的特殊结构为量化带来...