漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-12-02 talkingdev

开源|苹果发布STARFlow与STARFlow-V:基于Transformer自回归流的图像与视频生成新突破

苹果公司在Hugging Face平台开源了STARFlow与STARFlow-V模型,标志着图像与视频生成领域迎来了一项重要的技术进展。STARFlow是一种创新的Transformer自回归流模型,其核心在于巧妙地将自回归模型强大的表达能力与归...

Read More
2025-11-22 talkingdev

[开源] AI视频创作新突破:Video-Materials-AutoGEN-Workstation实现全流程自动化生成

GitHub平台近日出现一款名为Video-Materials-AutoGEN-Workstation的开源项目,标志着AI视频创作工具进入全新发展阶段。该项目通过集成内容策划、AI文案生成、TTS批量配音、AI图片合成、ASR字幕提取及自由创作六大核...

Read More
2025-11-14 talkingdev

李飞飞与Yann LeCun为何同时押注“世界模型”?三大技术路径深度解析

在人工智能领域,世界模型(World Models)正成为新一代AI系统的核心研究方向。斯坦福大学教授李飞飞与图灵奖得主Yann LeCun近期分别提出了基于不同技术路径的世界模型架构。李飞飞团队聚焦于结合高斯溅射(Gaussian...

Read More
2025-11-12 talkingdev

空间智能:AI从语言大师迈向世界构建者的下一前沿

当前大型语言模型虽在文本生成领域表现卓越,却存在根本性认知缺陷——缺乏人类与生俱来的空间智能。最新研究指出,构建具备几何一致性与物理规律模拟能力的“世界模型”将成为突破这一瓶颈的关键。这类模型能通过处理图...

Read More
2025-10-28 talkingdev

《2025生成式媒体调查报告》发布:图像生成个人应用领先,企业投资回报周期缩短至12个月

最新发布的《2025生成式媒体调查报告》揭示了生成式媒体技术发展的关键趋势。报告显示,当前图像生成技术在个人用户中的普及度显著高于视频生成,其中谷歌Gemini系列模型在图像生成领域占据领先地位,而视频生成领域...

Read More
2025-10-23 talkingdev

World-in-World:首个闭环环境世界模型基准平台发布

近日,研究团队推出开创性基准平台World-in-World,这是首个专门针对闭环交互环境设计的开放评测框架。该平台突破传统世界模型仅关注视觉保真度的局限,将评估核心转向具身智能体在动态环境中的任务完成能力。通过构...

Read More
2025-10-23 talkingdev

Snapchat向全美用户免费开放首个AI提示词镜头,迎战Meta与OpenAI视频生成技术

Snapchat正式向美国所有用户免费开放其人工智能驱动的「Imagine Lens」功能,这标志着该平台首次将开放式提示词AI图像编辑工具从付费订阅模式转向全民普惠。该技术允许用户通过输入自定义文本指令,实时生成或编辑Sn...

Read More
2025-10-14 talkingdev

山寨Sora应用涌入苹果App Store,部分应用仍在架

在OpenAI正式发布其视频生成模型Sora后,苹果App Store迅速涌现出一批冒充Sora的山寨应用。这些应用通过规避苹果严格的审核机制成功上架,并在下架前获得了数十万次下载。这一事件暴露出应用商店审核体系存在漏洞,...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page