AI2发布MolmoAct:首个支持3D空间推理的动作理解模型
talkingdev • 2025-08-13
14268 views
艾伦人工智能研究所(AI2)近日开源了MolmoAct模型,这是首个基于Molmo框架构建的、专注于三维空间推理的动作理解系统。该模型通过创新的三维空间表征学习方法,实现了对复杂指令的精准环境交互能力,在SpatialQA等三维推理基准测试中刷新了性能记录。其技术突破主要体现在三方面:一是采用层次化三维场景解析架构,将物体关系建模从二维扩展到三维空间;二是通过自监督预训练大幅降低对标注数据的依赖;三是开源模型权重支持工业界快速部署。这一进展有望推动服务机器人、虚拟现实交互等领域的智能化升级,目前已在GitHub开放完整训练代码和演示案例。