量化技术的相关内容 - 漫话开发者

2025-04-07 talkingdev

DeepSeek R1模型1.58bit量化新突破：MoE层实现超低比特压缩

Unsloth团队针对DeepSeek最新R1模型成功开发出创新量化方案，其核心突破在于将混合专家（MoE）层压缩至惊人的1.58bit，同时通过动态量化技术保持其他模块在4-6bit精度。研究发现，模型Tokenizer的特殊结构为量化带来...

2025-03-04 talkingdev

近日，一项名为UniTok的创新技术引起了广泛关注。UniTok是一种离散视觉Tokenizer，旨在解决视觉生成与理解之间的表征差距。通过引入多码本量化技术，UniTok显著提升了token的表达能力，使其在生成任务中能够编码详细...

2024-10-25 talkingdev

量化Llama模型在计算效率和内存管理方面取得了显著进展。通过优化算法和模型架构，最新版本的Llama模型在保持性能的同时，速度得到了显著提升。这种量化技术使得模型在处理大规模数据时更加高效，特别是在资源受限的...

2024-05-31 talkingdev

随着大型语言模型性能的提升，其对能源和计算能力的渴求也随之增加。为降低成本，提高处理速度，同时减少对环境的影响，模型需要实现更小型化。研究人员目前采用一种名为量化的技术，通过减少模型参数的精度来压缩网...

2024-04-02 talkingdev

在移动设备上运行语言模型面临着延迟、带宽和功耗等多方面的挑战。本研究通过采用量化技术、移除键值缓存以及其他优化手段，成功实现了在手机上以每秒30个令牌的速度运行强大的Gemma 2B模型。这一成果比其他框架快约...

2024-03-29 talkingdev

1比特语言模型的研究为深度学习领域带来了新的突破。该技术通过在不损失性能的前提下，对语言模型中的线性层进行量化处理，实现了模型大小的大幅压缩。这一创新使得原本只能在高性能计算平台上运行的700亿参数模型，...

2024-03-04 talkingdev

随着人工智能模型的不断发展，越来越多的研究人员开始研究如何在不影响模型准确性的前提下，提高模型的计算效率和内存利用率。LLM量化是一种后训练量化技术，可以使像OPT和LLaMA2这样的大型语言模型更具内存和计算效...

2024-02-01 talkingdev

本周，Mistral公司的CEO确认了Mistral的一个量化版本文件在HuggingFace上泄露，该技术使得在较弱的电脑和芯片上运行某些AI模型成为可能。据报道，该模型在EQ-Bench上超过了全球所有其他LLM模型，仅次于GPT-4。Mistra...