高效推理的相关内容 - 漫话开发者

2025-05-07 talkingdev

AutoRound：突破性后训练量化技术显著提升低比特模型精度

近期，Hugging Face发布了一项名为AutoRound的后训练量化技术，该技术能够在保持模型性能和效率的同时，显著提升低比特量化模型的精度。这一突破性进展为边缘计算和移动端设备部署轻量级AI模型提供了新的可能性，解...

2025-04-30 talkingdev

IBM研究院近日推出开源大语言模型Bamba，该模型创新性地结合了Transformer架构的序列建模能力和状态空间模型（SSM）的推理速度优势。作为IBM Granite系列模型的技术前导，Bamba通过注意力机制与状态空间方程的混合设...

2025-04-17 talkingdev

M1是一种基于Mamba架构的推理模型，通过扩展测试时间计算进行训练。虽然尚未完全达到最先进模型的水平，但M1在长上下文处理和高吞吐量任务中表现出色。这一突破为大规模语言模型的推理效率提供了新的研究方向，特别...

2025-04-15 talkingdev

近期发表于arXiv的研究ThinkLite-VL通过创新性地应用蒙特卡洛树搜索（MCTS）技术量化样本难度，在视觉语言模型（VLM）领域取得突破性进展。该方法仅需11,000个训练样本即可显著提升模型推理能力，且无需依赖知识蒸馏...

2025-01-29 talkingdev

本文详细介绍了一种价值6000美元的硬件配置方案，用于在本地环境中运行完整的DeepSeek-R1模型。该配置方案需要两台CPU和768GB的RAM，跨越24个RAM通道。虽然方案中并未包含GPU，但可以额外添加GPU以提高模型生成速度...