漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-03-19 talkingdev

[开源] Stability AI发布多视角虚拟相机系统,支持新颖视图合成

Stability AI近日发布了一款强大的多视角虚拟相机系统,该系统能够实现新颖视图合成(Novel View Synthesis),为用户提供了一种高效且非商业化的解决方案。虽然该技术尚未达到行业最先进水平,但其优势在于仅需两次...

Read More
2025-03-19 talkingdev

Niagara推出单视图3D场景重建新框架

近日,一项名为Niagara的创新框架在3D场景重建领域取得了重要进展。该框架通过从单张图像中重建户外3D场景,结合深度和法线估计,以及几何仿射场和3D高斯解码技术,显著提升了重建的精确度和效率。这一技术不仅解决...

Read More
2025-03-17 talkingdev

Luma推出多模态模型预训练新方法:Inductive Moment Matching

Luma首席科学家宋嘉明,作为最早为扩散模型开发加速算法的先驱,近日发布了新的多模态预训练方法——Inductive Moment Matching(IMM)。这一新方法不仅超越了传统扩散模型在样本质量上的表现,还实现了10倍以上的效率...

Read More
2025-03-14 talkingdev

AnyMoLe:利用视频扩散模型生成任意角色的中间帧运动

计算机视觉和图形学领域,生成角色的中间帧运动一直是一个具有挑战性的任务,尤其是当涉及个性化角色的动画生成时。传统的动画生成方法需要针对特定角色进行数据收集和模型训练,而新项目AnyMoLe通过引入视频扩散...

Read More
2025-03-13 talkingdev

VideoPainter推出双流视频修复架构,提升背景保留与对象生成效果

VideoPainter最近推出了一种创新性的双流架构,专门用于视频修复任务。该架构显著降低了学习复杂性,同时改善了背景保留和对象生成的效果。视频修复是计算机视觉领域的一个重要研究方向,旨在自动填补视频中的缺失或...

Read More
2025-03-13 talkingdev

[论文推荐]CATANet:通过长距离内容相似性标记聚合实现图像超分辨率

近期,一项名为CATANet的创新技术在高分辨率图像生成领域取得了重要进展。该技术通过聚合长距离内容相似的标记(tokens),显著提升了图像超分辨率的效果。传统的超分辨率方法通常依赖于局部特征的处理,而CATANet则...

Read More
2025-03-12 talkingdev

DeepMind推出革命性图像-文本模型TIPS,刷新多领域性能标杆

DeepMind近日发布了名为TIPS的新型图像-文本模型,专为密集型和全局视觉任务设计。该模型通过结合对比学习与掩码图像建模技术,并利用合成字幕进行训练,显著提升了空间感知能力。在多项基准测试中,TIPS的表现均超...

Read More
2025-03-12 talkingdev

感知高效重建(GitHub Repo):文本查询与3D重建的融合

计算机视觉和人工智能领域,3D重建技术一直是一个重要的研究方向。最近,GitHub上出现了一个名为“Perception Efficient Reconstruction”(PE3R)的项目,该项目将文本查询功能与从图像中进行3D重建的技术相结合,...

Read More
  1. Prev Page
  2. 11
  3. 12
  4. 13
  5. Next Page