漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-01-24 talkingdev

谷歌相册推出AI新功能“Me Meme”,用户可将个人照片一键生成表情包

谷歌近日在其相册应用中推出了一项名为“Me Meme”的全新生成式AI功能,该功能允许用户利用自己的个人照片快速创建个性化表情包。此项功能率先在美国市场推出,标志着生成式人工智能在个人娱乐和内容创作领域的应用进...

Read More
2026-01-20 talkingdev

开源|Meta发布ShapeR:从图像序列生成完整3D场景网格

Meta AI研究院近日在GitHub开源了ShapeR项目,该项目代表了3D场景重建领域的一项重要进展。ShapeR的核心技术在于能够仅从一系列图像中,重建出完整的、高质量的三维场景网格。其技术路径颇具创新性:首先,系统从输...

Read More
2025-12-23 talkingdev

图解Transformer经典:让复杂架构一目了然

一篇题为《图解Transformer》的技术博客在开发者社区Hacker News上引发了广泛关注,该博客由jalammar撰写,通过大量直观的图示和清晰的解释,深入浅出地剖析了Transformer这一革命性神经网络架构的核心工作原理。Tra...

Read More
2025-12-15 talkingdev

Tinker全面开放并集成视觉输入能力,推理模型Kimi K2 Thinking正式上线

人工智能平台Tinker今日宣布结束等待名单,正式向所有用户开放,并同步推出多项重要技术更新。本次更新的核心亮点包括:引入全新的推理模型Kimi K2 Thinking,该模型拥有万亿级参数,专为处理长链条复杂推理和工具调...

Read More
2025-12-10 talkingdev

Saber:零样本参考图像生成视频新框架,无需昂贵三元组数据

近日,一项名为Saber的零样本视频生成框架引起了人工智能与计算机视觉领域的广泛关注。该框架的核心突破在于,能够仅依据单张参考图像和文本提示,生成与参考对象身份高度一致的高质量视频。其技术关键在于,整个训...

Read More
2025-12-09 talkingdev

论文推荐|无需人工标注!新型自训练框架让视觉语言模型学会自我评判

一项突破性的研究提出了一种无需任何人工偏好标注即可训练视觉语言模型评判者的全新框架。该框架的核心在于通过自我合成数据实现迭代式自训练,从而摆脱了对昂贵且易过时的人工标注的依赖。其工作流程分为三个阶段:...

Read More
2025-12-02 talkingdev

开源|ViBT:20B参数视觉桥接Transformer,高效图像与视频编辑新突破

近日,GitHub上开源了一个名为ViBT(Vision Bridge Transformer)的项目,该项目将布朗桥模型(Brownian Bridge Models)扩展至高达200亿参数规模,专门用于高效的图像与视频条件生成任务。ViBT的核心创新在于其采用...

Read More
2025-11-26 talkingdev

中国开源AI模型全球下载份额首超美国,MIT与Hugging Face研究揭示行业格局变迁

麻省理工学院与Hugging Face联合研究显示,过去一年中国开发的开源AI模型全球下载量占比达17%,首次超越美国开发者的15.8%。这一数据标志着全球人工智能开发力量格局正在重构。研究指出,中国开源模型的崛起得益于北...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page