跨模态理解的相关内容 - 漫话开发者

2025-10-27 talkingdev

突破性发现：Claude神经元实现跨模态视觉特征识别，SVG与ASCII艺术触发相同概念响应

Anthropic研究团队在《Circuits Updates – October 2025》中披露了令人振奋的发现：其大型语言模型Claude的内部神经元展现出跨模态理解能力。实验表明，当模型处理文字“眼睛”时激活的特定神经元，在遇到用@符号排列...

2025-08-11 talkingdev

马斯克旗下xAI团队开发的Grok模型即将迎来重大更新，内部版本号V7已完成预训练。此次升级的核心突破在于原生多模态能力的实现，模型可直接处理音频和视频输入，标志着通用人工智能在跨模态理解领域迈出关键一步。值...

2025-05-23 talkingdev

字节跳动最新发布的开源多模态基础模型BAGEL在技术领域引发广泛关注。该模型原生支持多模态理解与生成任务，在开源统一模型中表现优异。BAGEL展现出先进的跨模态推理能力，包括图像编辑、3D场景操作和世界导航等复杂...

2025-05-13 talkingdev

OpenDriveLab团队在GitHub开源了UniVLA框架，这项突破性技术通过推断任务中心的潜在动作，实现了从无标注视频中学习跨机器人平台的通用策略。该框架采用先进的视觉-语言-动作联合建模方法，能自适应不同机械结构的机...

2025-04-18 talkingdev

Meta公司近日重磅推出四项人工智能领域的重要技术成果：1）高性能图像编码器，可优化视觉数据的特征提取效率；2）视觉语言模型（VLM），实现跨模态理解与生成；3）基于联合嵌入预测架构（JEPA）的3D物体定位模型，突...

2025-04-07 talkingdev

谷歌宣布其新一代多模态大模型Gemini 2.5 Pro正式进入公测阶段，开发者现可通过Google AI Studio的Gemini API进行体验，而企业级平台Vertex AI的支持也即将上线。作为Gemini系列的最强版本，2.5 Pro在跨模态理解、长...