3D视觉的相关内容 - 漫话开发者

2025-04-18 talkingdev

[论文推荐]3D CoCa：融合视觉语言对比学习与场景描述的统一3D场景理解框架

谷歌研究院与加州大学团队在arXiv最新发表的论文提出3D CoCa框架，这一突破性技术通过整合视觉语言对比学习（Contrastive Learning）与场景描述（Captioning）两大前沿方向，实现了对三维场景的多模态联合理解。该框...

2025-04-02 talkingdev

Easi3R是一项突破性的3D视觉系统，专门针对高动态场景的三维重建进行了优化。该系统通过创新的运动物体掩蔽技术，将移动物体与背景分离学习，从而实现了比现有方法更精确的全场景重建。这一技术解决了动态场景重建中...

2025-03-26 talkingdev

视觉几何基础Transformer（Visual Geometry Grounded Transformer，简称VGGT）是一种前馈神经网络，能够直接从场景的一个、几个甚至数百个视角中推断出所有关键的3D属性，包括外部和内部相机参数、点云图、深度图以...

2024-06-27 talkingdev

近日，一款名为Director3D的新框架引起了行业内的广泛关注。这款框架的设计目标是提升现实世界3D场景的生成和相机轨迹的模拟。Director3D运用了一种名为轨迹扩散变换器（Trajectory Diffusion Transformer）和多视图...

2024-03-19 talkingdev

最近，一个新的GitHub项目GroupContrast引起了技术界的广泛关注。该项目通过将片段分组与语义感知对比学习相结合，重新定义了自监督3D表示学习的概念。这种创新的方法不仅能够提高3D场景理解的准确性，还能够在不依...

2024-03-08 talkingdev

DP3推出了一种先进的模仿学习方法，结合3D视觉数据和扩散策略，以高效的方式为机器人教授复杂技能。该方法通过将多个示教者的动作数据进行聚合，形成一个复杂的运动模型，并通过扩散过程来优化该模型。该模型可以有...

2024-01-08 talkingdev

随着视觉问答技术的不断发展，大多数模型只涉及2D推理，忽略了3D视觉场景的复杂性。这项研究提出了3D感知的视觉问答技术。通过对3D场景的理解和分析，模型可以更精准地回答问题，具有更高的准确率和可解释性。该技术...