漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-12-10 talkingdev

Saber:零样本参考图像生成视频新框架,无需昂贵三元组数据

近日,一项名为Saber的零样本视频生成框架引起了人工智能与计算机视觉领域的广泛关注。该框架的核心突破在于,能够仅依据单张参考图像和文本提示,生成与参考对象身份高度一致的高质量视频。其技术关键在于,整个训...

Read More
2025-12-09 talkingdev

论文推荐|无需人工标注!新型自训练框架让视觉语言模型学会自我评判

一项突破性的研究提出了一种无需任何人工偏好标注即可训练视觉语言模型评判者的全新框架。该框架的核心在于通过自我合成数据实现迭代式自训练,从而摆脱了对昂贵且易过时的人工标注的依赖。其工作流程分为三个阶段:...

Read More
2025-12-02 talkingdev

开源|ViBT:20B参数视觉桥接Transformer,高效图像与视频编辑新突破

近日,GitHub上开源了一个名为ViBT(Vision Bridge Transformer)的项目,该项目将布朗桥模型(Brownian Bridge Models)扩展至高达200亿参数规模,专门用于高效的图像与视频条件生成任务。ViBT的核心创新在于其采用...

Read More
2025-11-26 talkingdev

中国开源AI模型全球下载份额首超美国,MIT与Hugging Face研究揭示行业格局变迁

麻省理工学院与Hugging Face联合研究显示,过去一年中国开发的开源AI模型全球下载量占比达17%,首次超越美国开发者的15.8%。这一数据标志着全球人工智能开发力量格局正在重构。研究指出,中国开源模型的崛起得益于北...

Read More
2025-11-23 talkingdev

专家警告:当前AI泡沫或超越1999年互联网泡沫,经济风险与科技巨头暴露度加剧危机

根据科技专栏作者弗雷德·沃格尔斯坦在《疯狂愚蠢科技》中的深度分析,当前人工智能浪潮与1999年互联网泡沫存在惊人相似性,但潜在风险可能更为严峻。截至2025年11月底,人工智能革命将仅满三周年,这一时间跨度与互...

Read More
2025-11-20 talkingdev

Meta开源SAM 3:多模态提示实现智能分割新突破

Meta公司最新开源的Segment Anything Model 3(SAM 3)标志着图像分割技术进入全新发展阶段。该版本突破性地融合了文本与视觉双重提示能力,用户既可通过文字描述指定分割目标,也能通过点击、框选等视觉交互方式精...

Read More
2025-11-17 talkingdev

开源|字节跳动Seed团队发布Depth Anything 3:通用单/多视图深度估计新突破

字节跳动Seed团队在GitHub开源了Depth Anything 3(DA3)项目,这是深度估计领域的重要进展。该模型通过纯Transformer架构和创新的深度射线表示法,实现了无需相机位姿信息的单视图或多视图图像空间一致性深度估计。...

Read More
2025-11-15 talkingdev

AI世界时钟:九大模型实时渲染时间,展现生成式AI多元风格

由开发者Brian Moore创建的「AI世界时钟」项目,通过九种不同人工智能模型每分钟生成全新的时钟图像,生动展示了生成式AI在视觉创作领域的应用潜力。该项目在Hacker News社区获得880点讨论热度与293条深度评论,反映...

Read More
  1. Prev Page
  2. 2
  3. 3
  4. 4
  5. Next Page