漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-04-02 talkingdev

[开源]Easi3R:无需训练即可从DUSt3R中解耦运动估计(GitHub项目)

Easi3R是一项突破性的3D视觉系统,专门针对高动态场景的三维重建进行了优化。该系统通过创新的运动物体掩蔽技术,将移动物体与背景分离学习,从而实现了比现有方法更精确的全场景重建。这一技术解决了动态场景重建中...

Read More
2025-03-26 talkingdev

[开源] 视觉几何基础Transformer (VGGT) GitHub 项目发布

视觉几何基础Transformer(Visual Geometry Grounded Transformer,简称VGGT)是一种前馈神经网络,能够直接从场景的一个、几个甚至数百个视角中推断出所有关键的3D属性,包括外部和内部相机参数、点云图、深度图以...

Read More
2024-06-27 talkingdev

Director3D开源-现实世界3D场景AI生成框架

近日,一款名为Director3D的新框架引起了行业内的广泛关注。这款框架的设计目标是提升现实世界3D场景的生成和相机轨迹的模拟。Director3D运用了一种名为轨迹扩散变换器(Trajectory Diffusion Transformer)和多视图...

Read More
2024-03-19 talkingdev

GroupContrast:重新定义自监督3D场景理解技术

最近,一个新的GitHub项目GroupContrast引起了技术界的广泛关注。该项目通过将片段分组与语义感知对比学习相结合,重新定义了自监督3D表示学习的概念。这种创新的方法不仅能够提高3D场景理解的准确性,还能够在不依...

Read More
2024-03-08 talkingdev

DP3引领机器人模仿学习新方向

DP3推出了一种先进的模仿学习方法,结合3D视觉数据和扩散策略,以高效的方式为机器人教授复杂技能。该方法通过将多个示教者的动作数据进行聚合,形成一个复杂的运动模型,并通过扩散过程来优化该模型。该模型可以有...

Read More
2024-01-08 talkingdev

论文:掌握3D场景,增强视觉问答技术

随着视觉问答技术的不断发展,大多数模型只涉及2D推理,忽略了3D视觉场景的复杂性。这项研究提出了3D感知的视觉问答技术。通过对3D场景的理解和分析,模型可以更精准地回答问题,具有更高的准确率和可解释性。该技术...

Read More