世界模型的相关内容 - 漫话开发者

2026-07-21 talkingdev

英伟达发布Cosmos 3 Edge：40亿参数世界模型赋能边缘设备实时推理与机器人动作生成

英伟达在Hugging Face上正式推出Cosmos 3 Edge，这是一款拥有40亿参数的开源世界模型，专为边缘设备上的机器人与视觉AI体设计。该模型通过共享的世界表征，将环境理解、实时预测、模拟与动作生成统一在同一框架下，...

2026-06-02 talkingdev

在生成式AI的激烈竞争中，视频生成与世界模型正成为下一个前沿战场。Ethan He，这位曾领导NVIDIA Cosmos世界模型项目的核心人物，在加入xAI后仅用三个月便主导构建了Grok Imagine图像生成系统。在一篇长达98分钟的深...

2026-05-28 talkingdev

Biohub近日向全球研究人员开放了其蛋白质结构预测、设计与生物发现的开源引擎，标志着蛋白质生物学领域迈入AI驱动的新阶段。该发布包含三个核心模型：ESMC，一种最先进的语言模型，内化了支配蛋白质生物学的基本属性...

2025-12-01 talkingdev

近日，一个名为ENACT的新型基准测试在人工智能与认知科学交叉领域引发关注。该基准旨在通过第一人称视角的世界建模来系统评估智能体的具身认知能力。具身认知理论认为，智能体的认知过程与其物理身体及与环境的实时...

2025-11-14 talkingdev

在人工智能领域，世界模型（World Models）正成为新一代AI系统的核心研究方向。斯坦福大学教授李飞飞与图灵奖得主Yann LeCun近期分别提出了基于不同技术路径的世界模型架构。李飞飞团队聚焦于结合高斯溅射（Gaussian...

2025-11-12 talkingdev

当前大型语言模型虽在文本生成领域表现卓越，却存在根本性认知缺陷——缺乏人类与生俱来的空间智能。最新研究指出，构建具备几何一致性与物理规律模拟能力的“世界模型”将成为突破这一瓶颈的关键。这类模型能通过处理图...

2025-11-05 talkingdev

当前最强大的开源大语言模型普遍采用自回归解码器架构的Transformer模型，但近年来涌现出多种创新架构。这些模型不仅关注计算效率的提升，更致力于突破性能瓶颈。文本扩散模型通过模拟去噪过程生成连贯文本，在创造...

2025-10-23 talkingdev

近日，研究团队推出开创性基准平台World-in-World，这是首个专门针对闭环交互环境设计的开放评测框架。该平台突破传统世界模型仅关注视觉保真度的局限，将评估核心转向具身智能体在动态环境中的任务完成能力。通过构...