计算机视觉的相关内容 - 漫话开发者

2023-10-06 talkingdev

谷歌DeepMind携手33个研究所，打造“机器人行动ImageNet”

谷歌的DeepMind与33个研究所联手，共同开发了名为Open X-Embodiment的数据库，这个数据库相当于计算机视觉中的ImageNet数据库。这个数据库包含来自22种机器人类型的500多个技能和150,000个任务，旨在通过提供共享资...

2023-10-04 talkingdev

视觉-语言模型如CLIP在许多任务中表现出色，但在图像修复方面却面临一些挑战。因此，一项新的项目引入了DA-CLIP模型，该模型优化了CLIP的工作方式，使其更好地处理这些任务，从而带来更清晰的图像重建。DA-CLIP模型...

2023-09-26 talkingdev

NeuralLabeling是一款使用3D技术进行详细场景注释的工具。这款工具可以帮助用户精确地标注出图像中的各个物体和场景，从而为计算机视觉应用如自动驾驶、虚拟现实等提供更丰富、更准确的数据。NeuralLabeling的优势在...

2023-09-25 talkingdev

研究人员已经介绍了一种名为TCOVIS的在线视频实例分割技术，这种技术优先考虑时间一致性。在线视频实例分割是计算机视觉领域的热门课题，它的目的是将视频帧中的每个实例独立地识别和分割出来。然而，现有的方法通常...

2023-09-21 talkingdev

DFormer是一种独特的方法，可以同时研究图像的颜色和深度。与旧有的方法不同，DFormer专为RGB-D图像设计。RGB-D图像是一种同时包含颜色信息（R，G，B）和深度信息（D）的图像。DFormer的设计目标是提供一种更有效的...

2023-09-12 talkingdev

本研究的作者们已经创建了一种方法，用以测试视觉语言模型对于他们所看到的内容进行逻辑思考的能力。视觉语言模型是一种结合了计算机视觉和自然语言处理的技术，它能理解和解释图片中的内容。然而，这种模型在理解和...

2023-09-06 talkingdev

Meta公司最新研发的SAM.cpp项目现已在GitHub仓库中开源。这是一项运行于纯C++环境下的分割技术，其底层驱动是GGML。SAM.cpp能够实现Meta上的任何内容的精细分割，不论是图像、视频，还是复杂的3D模型，都能够轻松应...

2023-09-01 talkingdev

仅从少数样本中产生多样化的图像一直是技术上的挑战。而新的技术——TexMod，采用独特的技术方法，将各种图像的细节融合在一起，并确保生成的图像具有逻辑性的布局。TexMod的出现，不仅提升了图像生成的质量，也为图像...