漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-04-30 talkingdev

IBM开源Bamba模型:融合Transformer与SSM优势的新型大语言模型

IBM研究院近日推出开源大语言模型Bamba,该模型创新性地结合了Transformer架构的序列建模能力和状态空间模型(SSM)的推理速度优势。作为IBM Granite系列模型的技术前导,Bamba通过注意力机制与状态空间方程的混合设...

Read More
2025-04-17 talkingdev

[论文推荐]M1:基于Mamba推理模型的可扩展测试时间计算研究

M1是一种基于Mamba架构的推理模型,通过扩展测试时间计算进行训练。虽然尚未完全达到最先进模型的水平,但M1在长上下文处理和高吞吐量任务中表现出色。这一突破为大规模语言模型的推理效率提供了新的研究方向,特别...

Read More
2025-04-15 talkingdev

[论文推荐]ThinkLite-VL:仅用1.1万训练样本实现视觉语言模型高效推理

近期发表于arXiv的研究ThinkLite-VL通过创新性地应用蒙特卡洛树搜索(MCTS)技术量化样本难度,在视觉语言模型(VLM)领域取得突破性进展。该方法仅需11,000个训练样本即可显著提升模型推理能力,且无需依赖知识蒸馏...

Read More
2025-01-29 talkingdev

本地部署DeepSeek-R1模型的完整硬件+软件配置解析

本文详细介绍了一种价值6000美元的硬件配置方案,用于在本地环境中运行完整的DeepSeek-R1模型。该配置方案需要两台CPU和768GB的RAM,跨越24个RAM通道。虽然方案中并未包含GPU,但可以额外添加GPU以提高模型生成速度...

Read More
  1. Prev Page