多模态人工智能的相关内容 - 漫话开发者

2026-04-22 talkingdev

OpenAI发布ChatGPT Images 2.0：图像生成模型迎来重大升级，文本渲染与多模态推理能力显著提升

OpenAI近日正式推出了其图像生成模型的重大升级版本——ChatGPT Images 2.0。该版本标志着多模态人工智能技术迈入了新的阶段，其核心在于集成了一个先进的图像生成模型，该模型在多个关键技术指标上实现了显著突破。首...

2025-11-20 talkingdev

Meta公司最新开源的Segment Anything Model 3（SAM 3）标志着图像分割技术进入全新发展阶段。该版本突破性地融合了文本与视觉双重提示能力，用户既可通过文字描述指定分割目标，也能通过点击、框选等视觉交互方式精...

2025-11-13 talkingdev

百度最新发布的开源多模态人工智能模型ERNIE-4.5-VL-28B-A3B-Thinking在技术架构上实现重大突破。该模型采用280亿参数规模，但通过创新的动态路由架构，在推理时仅激活30亿参数，即可在多项任务性能上媲美甚至超越规...

2025-10-03 talkingdev

Vision-Zero项目提出了一种突破性的视觉语言模型训练范式，通过生成式对抗游戏实现自监督学习。该框架的核心创新在于利用任意图像对构建竞争性视觉游戏，使模型在无需人工标注的情况下，通过策略性自我博弈持续优化...

2025-07-26 talkingdev

中国宇树科技(Unitree Robotics)近日推出革命性产品R1人形机器人，以5900美元（约合人民币4.2万元）的定价震撼业界，创下同类产品最低售价记录。这款重25公斤的机器人搭载先进的多模态人工智能系统，能够实现环境感...

2025-05-16 talkingdev

BLIP3-o作为一种新型的扩散Transformer架构，通过序列预训练方法实现了技术突破，并在多模态基准测试中取得了当前最优异的成绩。该研究不仅发布了完整的代码和权重文件，还附带了一个包含6万条指令的微调数据集，为...

2025-04-23 talkingdev

近日，一项名为KGMEL的创新性研究提出了一种突破性的多模态实体链接方法，通过三阶段处理流程整合文本、图像及知识图谱三元组数据，显著提升了实体识别的准确率。该技术通过第一阶段的多模态特征提取、第二阶段的跨...

2025-04-21 talkingdev

VistaDPO项目通过创新的分层优化方法，在视频与文本对齐领域取得重要突破。该项目构建了一个包含7200个样本的全新数据集，专门用于优化空间和时间维度的偏好学习。其核心技术在于采用分层次的优化策略，能够同时处理...