漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-04-18 talkingdev

[论文推荐]3D CoCa:融合视觉语言对比学习与场景描述的统一3D场景理解框架

谷歌研究院与加州大学团队在arXiv最新发表的论文提出3D CoCa框架,这一突破性技术通过整合视觉语言对比学习(Contrastive Learning)与场景描述(Captioning)两大前沿方向,实现了对三维场景的多模态联合理解。该框...

Read More
2025-04-15 talkingdev

[论文推荐]InteractVLM:基于2D基础模型的3D交互推理新突破

InteractVLM作为新一代视觉语言模型(VLM),实现了从2D到3D的交互推理跨越。该模型通过创新性地利用强大的基础模型,结合多视角渲染技术,将2D推理能力提升至3D空间,能够精准分析人类与物体在三维环境中的接触关系。...

Read More
2025-04-11 talkingdev

ChatGPT记忆功能升级:默认记忆过往对话提升交互精度

OpenAI宣布对ChatGPT进行升级,增强其聊天机器人的记忆功能,并使其成为默认设置。升级后的ChatGPT将能够参考先前的对话历史,以提供更加相关和有用的回答。这一改进将适用于平台上的所有交流方式。长期记忆对AI而言...

Read More
2025-04-07 talkingdev

无监督全景分割新突破:CUPS技术利用深度与运动线索实现无标注训练

德国视觉与学习实验室(Visinf)最新提出的CUPS(Contrastive Unsupervised Panoptic Segmentation)技术,开创性地实现了无需人工标注数据的全景分割模型训练。该方法通过挖掘场景中心图像中的深度信息和运动线索,...

Read More
2025-04-02 talkingdev

[开源]Easi3R:无需训练即可从DUSt3R中解耦运动估计(GitHub项目)

Easi3R是一项突破性的3D视觉系统,专门针对高动态场景的三维重建进行了优化。该系统通过创新的运动物体掩蔽技术,将移动物体与背景分离学习,从而实现了比现有方法更精确的全场景重建。这一技术解决了动态场景重建中...

Read More
2025-04-01 talkingdev

TIDE:水下场景理解新突破,高质量合成数据集生成方法

近日,一项名为TIDE的创新技术在水下场景理解领域取得重要进展。该技术通过文本到图像转换和密集标注生成方法,能够创建具有一致像素级标签的高质量合成数据集。这一突破性技术解决了水下场景数据获取难、标注成本高...

Read More
2025-03-31 talkingdev

AI驱动的首个心理治疗聊天机器人临床试验成功,显著改善心理健康

达特茅斯学院的研究人员发表了首个由生成性AI驱动的心理治疗聊天机器人的临床试验结果。该软件使参与者的症状显著改善,研究对象报告称他们能够信任并和系统进行沟通,这与和心理健康专业人员工作的程度相当。研究表...

Read More
2025-03-26 talkingdev

[开源] 视觉几何基础Transformer (VGGT) GitHub 项目发布

视觉几何基础Transformer(Visual Geometry Grounded Transformer,简称VGGT)是一种前馈神经网络,能够直接从场景的一个、几个甚至数百个视角中推断出所有关键的3D属性,包括外部和内部相机参数、点云图、深度图以...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page