漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-05-23 talkingdev

谷歌I/O 2025大会AI亮点回顾:Gemini 2.5 Pro Deep Think与Veo 3重磅发布

谷歌最新一期Release Notes播客深度解析了I/O 2025大会的AI技术突破,重点介绍了三大核心创新:1) Gemini 2.5 Pro Deep Think作为下一代多模态AI系统,通过增强的递归神经网络架构实现复杂逻辑推理,其万亿级参数规...

Read More
2025-05-23 talkingdev

[论文推荐]字节跳动发布开源多模态基础模型BAGEL,支持跨模态理解与生成

字节跳动最新发布的开源多模态基础模型BAGEL在技术领域引发广泛关注。该模型原生支持多模态理解与生成任务,在开源统一模型中表现优异。BAGEL展现出先进的跨模态推理能力,包括图像编辑、3D场景操作和世界导航等复杂...

Read More
2025-05-22 talkingdev

谷歌推出Gemini Diffusion:首个采用扩散模型替代Transformer的大语言模型

谷歌最新发布的Gemini Diffusion标志着大语言模型架构的重大突破,这是该公司首次采用扩散模型(Diffusion Model)完全替代传统的Transformer架构。技术文档显示,该模型在保持与Gemini 2.0 Flash-Lite相当性能表现...

Read More
2025-05-21 talkingdev

谷歌搜索全面推出AI模式,提供多模态搜索体验

谷歌正在向所有美国用户推出搜索中的AI模式,这一更新将带来更深层次的多模态搜索体验。该模式结合了先进的推理能力、后续问题追问功能以及快速生成的AI概述,显著提升了搜索的交互性和信息获取效率。这一技术突破不...

Read More
2025-05-21 talkingdev

[论文推荐]强化学习权威教材更新:涵盖传统方法到DPO、GPRO等前沿技术

谷歌高被引研究员Kevin Murphy近期更新了其200页的强化学习权威教材,系统性地覆盖了从传统方法到直接偏好优化(DPO)、广义策略优化(GPRO)以及推理技术等最前沿进展。该教材作为领域内的标杆性文献,不仅整合了经...

Read More
2025-05-21 talkingdev

谷歌"Jules"加入AI编程竞赛:采用自主代理技术革新开发流程

谷歌于12月启动封闭测试后,现已正式向公众发布其AI编程工具Jules。这款基于Gemini 2.5大模型构建的工具能够克隆整个代码仓库,并在开发者处理其他任务时自主完成编写测试、修复漏洞和构建新功能等工作。当前AI编程...

Read More
2025-05-16 talkingdev

HeyGen发布Avatar IV:迄今最先进的AI数字人模型

HeyGen公司最新推出的Avatar IV标志着AI数字人技术进入新纪元。该模型采用神经音频-表情引擎技术,通过解析语音的声调、节奏和情感等多维特征,仅需单张静态图像即可驱动生成高度逼真的面部微表情动画。这项突破性技...

Read More
2025-05-16 talkingdev

[论文推荐]BLIP3-o:新型扩散Transformer架构在多模态基准测试中创下最优成绩

BLIP3-o作为一种新型的扩散Transformer架构,通过序列预训练方法实现了技术突破,并在多模态基准测试中取得了当前最优异的成绩。该研究不仅发布了完整的代码和权重文件,还附带了一个包含6万条指令的微调数据集,为...

Read More
  1. Prev Page
  2. 18
  3. 19
  4. 20
  5. Next Page