基础模型的相关内容 - 漫话开发者

2026-07-31 talkingdev

MiniMax发布H3开源模型：首创文图视音统一上下文，直出2K立体声视频

MiniMax正式推出开源模型H3，首次在单一模型中打破了任务与模态的边界，实现了文本、图像、视频和音频的统一理解与生成。H3不再是简单的多模态拼接，而是在统一上下文中进行深层语义融合，尤其在视频生成领域带来了...

2026-07-29 talkingdev

微软研究团队近期发布了Mage，一个专为研究场景设计的轻量级多模态模型家族。该系列模型严格遵循40亿参数的固定预算，在保持紧凑架构的同时，性能足以比肩规模大得多的开源系统。Mage包含两大核心成员：Mage-VL和Mag...

2026-07-24 talkingdev

微软正式推出两款全新自研AI模型——MAI-Image-2.5-Pro和MAI-Voice-2-Flash，进一步强化其在多模态生成领域的布局。MAI-Image-2.5-Pro专注于高保真图像生成与编辑，能够根据复杂文本描述生成细节丰富、构图精准的高质...

2026-07-23 talkingdev

OpenAI正式推出Presence，一款面向企业级场景的AI代理部署平台，旨在帮助企业将可信的语音和聊天智能体集成到客户服务与内部工作流中。该平台的核心价值在于，让企业在享受大模型驱动的高价值自动化任务时，仍能保持...

2026-07-22 talkingdev

谷歌正式发布了三款新一代Gemini模型：Gemini 3.6 Flash、3.5 Flash-Lite和3.5 Flash Cyber。其中，Gemini 3.6 Flash在编码和多模态任务上显著提升了性能，同时通过优化输出token的消耗，进一步降低了使用成本，使其...

2026-07-21 talkingdev

Cursor 团队近期在一项构建 SQLite 的智能体集群实验中取得突破性发现，展示了结构化的多智能体协作在复杂软件工程任务中的巨大潜力。新方案采用规划智能体负责任务分解，再由多个工作智能体并行执行，这种协调机制...

2026-07-21 talkingdev

英伟达在Hugging Face上正式推出Cosmos 3 Edge，这是一款拥有40亿参数的开源世界模型，专为边缘设备上的机器人与视觉AI体设计。该模型通过共享的世界表征，将环境理解、实时预测、模拟与动作生成统一在同一框架下，...

2026-07-20 talkingdev

该观点将当前的大语言模型竞争与上世纪90年代的数据库之争进行了历史性类比，揭示了技术基础设施演进的一种深层规律。作者认为，大语言模型正沿着数据库的发展轨迹前进：从最初作为引发行业狂热的前沿技术，逐步演化...