漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-10-06 talkingdev

谷歌DeepMind携手33个研究所,打造“机器人行动ImageNet”

谷歌的DeepMind与33个研究所联手,共同开发了名为Open X-Embodiment的数据库,这个数据库相当于计算机视觉中的ImageNet数据库。这个数据库包含来自22种机器人类型的500多个技能和150,000个任务,旨在通过提供共享资...

Read More
2023-10-04 talkingdev

视觉-语言模型DA-CLIP带来更优秀的图像修复效果

视觉-语言模型如CLIP在许多任务中表现出色,但在图像修复方面却面临一些挑战。因此,一项新的项目引入了DA-CLIP模型,该模型优化了CLIP的工作方式,使其更好地处理这些任务,从而带来更清晰的图像重建。DA-CLIP模型...

Read More
2023-09-26 talkingdev

NeuralLabeling-利用3D工具进行先进的场景注释

NeuralLabeling是一款使用3D技术进行详细场景注释的工具。这款工具可以帮助用户精确地标注出图像中的各个物体和场景,从而为计算机视觉应用如自动驾驶、虚拟现实等提供更丰富、更准确的数据。NeuralLabeling的优势在...

Read More
2023-09-25 talkingdev

论文:在线视频实例分割技术TCOVIS

研究人员已经介绍了一种名为TCOVIS的在线视频实例分割技术,这种技术优先考虑时间一致性。在线视频实例分割是计算机视觉领域的热门课题,它的目的是将视频帧中的每个实例独立地识别和分割出来。然而,现有的方法通常...

Read More
2023-09-21 talkingdev

DFormer开源,更深入理解RGB-D图像

DFormer是一种独特的方法,可以同时研究图像的颜色和深度。与旧有的方法不同,DFormer专为RGB-D图像设计。RGB-D图像是一种同时包含颜色信息(R,G,B)和深度信息(D)的图像。DFormer的设计目标是提供一种更有效的...

Read More
2023-09-12 talkingdev

论文:更好理解和推理图片的新方法研究

本研究的作者们已经创建了一种方法,用以测试视觉语言模型对于他们所看到的内容进行逻辑思考的能力。视觉语言模型是一种结合了计算机视觉和自然语言处理的技术,它能理解和解释图片中的内容。然而,这种模型在理解和...

Read More
2023-09-06 talkingdev

SAM.cpp:Meta全新纯C++运行部分的分割技术

Meta公司最新研发的SAM.cpp项目现已在GitHub仓库中开源。这是一项运行于纯C++环境下的分割技术,其底层驱动是GGML。SAM.cpp能够实现Meta上的任何内容的精细分割,不论是图像、视频,还是复杂的3D模型,都能够轻松应...

Read More
2023-09-01 talkingdev

论文:用文本调制技术提升图像生成质量

仅从少数样本中产生多样化的图像一直是技术上的挑战。而新的技术——TexMod,采用独特的技术方法,将各种图像的细节融合在一起,并确保生成的图像具有逻辑性的布局。TexMod的出现,不仅提升了图像生成的质量,也为图像...

Read More
2023-09-01 talkingdev

评估计算机视觉模型的公平性:Meta发布DINO v2模型

在持续推动成为AI领域的开源贡献者的过程中,Meta公司近日公布了他们的DINO v2模型,并采用了更为宽松的许可证,允许社区在其基础上进行构建。此外,他们还发布了一个数据集,有助于确定并对各种计算机视觉模型中的...

Read More
2023-08-25 talkingdev

论文:LiDAR点追踪3D物体的新方法

大多数计算机视觉工具在使用LiDAR点追踪3D物体时,由于干扰或未注意到长期运动,常常遇到困难。为了解决这些问题,MTM-Tracker混合使用了两种方法,并分为两个阶段进行工作。在第一阶段,MTM-Tracker使用基于模型的...

Read More
  1. Prev Page
  2. 9
  3. 10
  4. 11
  5. Next Page