[论文推荐]3D CoCa:融合视觉语言对比学习与场景描述的统一3D场景理解框架
talkingdev • 2025-04-18
5267 views
谷歌研究院与加州大学团队在arXiv最新发表的论文提出3D CoCa框架,这一突破性技术通过整合视觉语言对比学习(Contrastive Learning)与场景描述(Captioning)两大前沿方向,实现了对三维场景的多模态联合理解。该框架采用双塔结构处理点云数据,其中视觉编码器提取几何特征,文本编码器生成语义描述,通过对比损失函数对齐两种模态的嵌入空间。实验表明,在ScanNet和S3DIS等基准数据集上,3D CoCa在零样本3D场景分类任务中准确率提升12.7%,同时生成的场景描述BLEU-4分数达到0.48,显著优于传统级联式方法。这项技术将推动AR导航、机器人环境交互等应用的发展,相关代码已开源供学术研究使用。