多模态AI的相关内容 - 漫话开发者

2026-04-22 talkingdev

OpenAI发布ChatGPT Images 2.0：图像生成模型迎来重大升级，文本渲染与多模态推理能力显著提升

OpenAI近日正式推出了其图像生成模型的重大升级版本——ChatGPT Images 2.0。该版本标志着多模态人工智能技术迈入了新的阶段，其核心在于集成了一个先进的图像生成模型，该模型在多个关键技术指标上实现了显著突破。首...

2026-04-20 talkingdev

NVIDIA近日在Hugging Face平台发布博客，介绍了其最新研发的NEMOTRON OCR V2模型。该模型的核心创新在于完全利用合成数据进行训练，通过构建包含mOSCAR文本和多样化字体的合成数据管道，生成了跨语言的像素级完美标...

2026-04-09 talkingdev

Meta公司近日正式推出了名为Muse Spark的新型多模态推理模型，标志着其在追求个人超级智能（Personal Superintelligence）的道路上迈出了关键一步。该模型集成了三大前沿技术能力：工具使用、视觉思维链以及多智能体...

2026-04-03 talkingdev

谷歌DeepMind近日正式发布了Gemma 4系列开源模型，标志着其在开放人工智能模型领域迈出了重要一步。该系列模型基于其旗舰Gemma 3技术构建，核心优化方向是“单位参数智能效率”，即在保持模型参数规模相对可控的同时，...

2026-04-03 talkingdev

阿里云通义千问团队近日发布了其最新旗舰模型Qwen3.6-Plus，标志着其在构建面向真实世界的智能体（Agents）道路上迈出了关键一步。该模型在多模态感知与推理能力上实现了显著提升，能够更精准地理解世界，为开发者生...

2026-03-11 talkingdev

谷歌近日正式推出了其新一代多模态嵌入模型Gemini Embedding 2，标志着人工智能在跨模态语义理解领域迈出了关键一步。该模型通过Gemini API和Vertex AI平台提供服务，其核心突破在于首次将文本、图像、视频、音频及...

2026-03-05 talkingdev

微软近日发布了Phi-4-reasoning-vision-15B，这是一款开源的、权重开放的多模态视觉AI模型。该模型仅包含150亿参数，却在数学、科学、文档及用户界面（UI）推理任务上，达到了与参数量大数倍的模型相当甚至更优的性...

2026-02-04 talkingdev

近日，由zai-org团队在Hugging Face平台开源了GLM-OCR模型，这是一款专为复杂文档理解设计的先进多模态OCR系统。该模型的核心创新在于其精巧的三段式架构：首先，它采用了在大规模图文数据上预训练的CogViT视觉编码...