漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-05-13 talkingdev

UniVLA-开源通用机器人策略框架,无标注视频学习

OpenDriveLab团队在GitHub开源了UniVLA框架,这项突破性技术通过推断任务中心的潜在动作,实现了从无标注视频中学习跨机器人平台的通用策略。该框架采用先进的视觉-语言-动作联合建模方法,能自适应不同机械结构的机...

Read More
2025-04-18 talkingdev

Meta发布多项AI新成果:图像编码器、视觉语言模型及3D物体定位系统

Meta公司近日重磅推出四项人工智能领域的重要技术成果:1)高性能图像编码器,可优化视觉数据的特征提取效率;2)视觉语言模型(VLM),实现跨模态理解与生成;3)基于联合嵌入预测架构(JEPA)的3D物体定位模型,突...

Read More
2025-04-07 talkingdev

谷歌Gemini 2.5 Pro开放公测:AI Studio抢先体验,Vertex AI即将支持

谷歌宣布其新一代多模态大模型Gemini 2.5 Pro正式进入公测阶段,开发者现可通过Google AI Studio的Gemini API进行体验,而企业级平台Vertex AI的支持也即将上线。作为Gemini系列的最强版本,2.5 Pro在跨模态理解、长...

Read More