漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-05-12 talkingdev

Thinking Machines Lab发布交互模型:实时人机协作的可扩展新范式

Thinking Machines Lab 近日发布了一项名为“交互模型”的研究预览,旨在通过音频、视频和文本三种模态,实现人类与人工智能之间的实时协作。该模型采用从头训练的“多流架构”,能够持续处理与交换多模态信息,彻底打破...

Read More
2026-05-01 talkingdev

论文推荐|GLM-5V-Turbo:多模态感知直接融入推理与工具调用,编程与视觉任务性能跃升

智谱AI团队发布的最新研究成果GLM-5V-Turbo,在人工智能领域迈出了关键一步。该模型的核心创新在于将多模态感知能力直接内嵌到模型的推理过程和工具使用中,而非作为独立的预处理步骤。这意味着模型能够同时处理并理...

Read More
2026-04-29 talkingdev

NVIDIA发布Nemotron 3 Nano Omni:多模态AI新突破,长上下文处理能力引领文档、音频与视频智能分析

NVIDIA日前发布了名为Nemotron 3 Nano Omni的全新多模态模型,标志着其在长上下文多模态智能领域的重要进展。该模型专为文档、音频和视频分析设计,在MMlongbench-Doc和VoiceBench等多个权威基准测试中均取得了业界...

Read More
2026-04-22 talkingdev

OpenAI发布ChatGPT Images 2.0:图像生成模型迎来重大升级,文本渲染与多模态推理能力显著提升

OpenAI近日正式推出了其图像生成模型的重大升级版本——ChatGPT Images 2.0。该版本标志着多模态人工智能技术迈入了新的阶段,其核心在于集成了一个先进的图像生成模型,该模型在多个关键技术指标上实现了显著突破。首...

Read More
2026-04-20 talkingdev

NVIDIA发布NEMOTRON OCR V2:基于合成数据的快速多语言OCR模型实现重大精度突破

NVIDIA近日在Hugging Face平台发布博客,介绍了其最新研发的NEMOTRON OCR V2模型。该模型的核心创新在于完全利用合成数据进行训练,通过构建包含mOSCAR文本和多样化字体的合成数据管道,生成了跨语言的像素级完美标...

Read More
2026-04-09 talkingdev

Meta发布Muse Spark:迈向个人超级智能的多模态推理与工具调用新模型

Meta公司近日正式推出了名为Muse Spark的新型多模态推理模型,标志着其在追求个人超级智能(Personal Superintelligence)的道路上迈出了关键一步。该模型集成了三大前沿技术能力:工具使用、视觉思维链以及多智能体...

Read More
2026-04-03 talkingdev

谷歌DeepMind发布Gemma 4:基于Gemma 3技术构建,支持140种语言的多模态推理

谷歌DeepMind近日正式发布了Gemma 4系列开源模型,标志着其在开放人工智能模型领域迈出了重要一步。该系列模型基于其旗舰Gemma 3技术构建,核心优化方向是“单位参数智能效率”,即在保持模型参数规模相对可控的同时,...

Read More
2026-04-03 talkingdev

通义千问Qwen3.6-Plus发布:迈向原生多模态智能体,开启“氛围编程”新体验

阿里云通义千问团队近日发布了其最新旗舰模型Qwen3.6-Plus,标志着其在构建面向真实世界的智能体(Agents)道路上迈出了关键一步。该模型在多模态感知与推理能力上实现了显著提升,能够更精准地理解世界,为开发者生...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page