漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-12-24 talkingdev

NotebookLM重磅更新:一键将文档源转化为结构化数据表格,AI知识管理迎来新范式

谷歌旗下AI研究助手NotebookLM近日推出了一项名为“数据表格”的核心新功能,标志着AI在信息处理和知识结构化领域迈出了重要一步。该功能能够智能解析用户上传的各类文档源(如研究论文、报告、文章等),并自动提取、...

Read More
2025-12-23 talkingdev

Manus推出AI设计视图:Mark工具实现像素级编辑,弥合提示词与最终图像的鸿沟

AI设计平台Manus近日正式发布了其全新功能模块——Manus Design View,标志着AI辅助设计工作流向精细化、实时化迈出了关键一步。该功能作为Manus智能代理的延伸,旨在解决当前AI生图工具中普遍存在的“提示词与最终输出...

Read More
2025-12-18 talkingdev

开源|Chatterbox:支持情感控制与零样本语音克隆的SOTA开源TTS模型发布

近日,由Resemble AI团队在GitHub上开源了名为Chatterbox的文本转语音模型,标志着开源TTS领域迈入了一个新的技术高度。该项目被定位为当前最先进的开源TTS解决方案,其核心亮点在于集成了多语言支持、精细化的情感...

Read More
2025-12-18 talkingdev

OBS Studio迎来全新渲染器,直播与录屏性能有望大幅提升

知名开源直播与录屏软件OBS Studio近日宣布,其核心渲染引擎迎来重大更新。根据官方博客发布的公告,开发团队正在为OBS Studio引入一个全新的渲染器。这一底层技术革新旨在解决当前版本在特定硬件配置、高分辨率高帧...

Read More
2025-12-13 talkingdev

迪士尼法务重拳出击!谷歌应要求下架数十个AI生成迪士尼角色视频

近日,科技巨头谷歌应迪士尼公司发出的法律函件要求,从其旗下视频平台YouTube上移除了数十个由人工智能生成的视频,这些视频的内容均涉及描绘迪士尼旗下知名卡通角色。此次事件源于迪士尼向谷歌正式发送了一封“停止...

Read More
2025-12-12 talkingdev

谷歌发布Gemini深度研究交互API,AI代理自主驾驭复杂信息搜索

谷歌近日正式向开发者开放了其强大的Gemini深度研究(Gemini Deep Research)功能,通过全新的交互API(Interactions API)提供服务。这一举措标志着AI在复杂信息处理与综合能力方面迈出了重要一步。Gemini深度研究...

Read More
2025-12-10 talkingdev

Saber:零样本参考图像生成视频新框架,无需昂贵三元组数据

近日,一项名为Saber的零样本视频生成框架引起了人工智能与计算机视觉领域的广泛关注。该框架的核心突破在于,能够仅依据单张参考图像和文本提示,生成与参考对象身份高度一致的高质量视频。其技术关键在于,整个训...

Read More
2025-12-02 talkingdev

开源|ViBT:20B参数视觉桥接Transformer,高效图像与视频编辑新突破

近日,GitHub上开源了一个名为ViBT(Vision Bridge Transformer)的项目,该项目将布朗桥模型(Brownian Bridge Models)扩展至高达200亿参数规模,专门用于高效的图像与视频条件生成任务。ViBT的核心创新在于其采用...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page