该存储库引入了一项名为“描述性物体检测”的新实践任务,它通过允许基于多样化语言描述进行物体检测,而不仅仅是基于预先存在的对象,从而改进了先前的方法。这种新的物体检测方式,更能符合实际应用需求,无论是在复...
Read More近日,研究人员推出了一个名为SlowTV的大规模数据集,该数据集主要从YouTube收集而来,旨在提升自监督单目深度估计模型在不同环境下的深度理解能力。这些环境场景包括徒步旅行的小路、水下场景以及室内空间等。通过...
Read More最近,一篇新的研究论文介绍了一种名为“神经视频深度稳定器”的新方法,可以在视频中提供一致且准确的深度估计。同时,研究团队还发布了有史以来最大的自然场景视频深度数据集,名为“野生视频深度”。通过这种新的方法...
Read MoreDragonDiffusion是一种全新的方法,旨在提高文本到图像模型的编辑精度。通过在扩散模型中利用特征对应,DragonDiffusion可以进行各种详细的图像修改,如移动和调整对象的大小,替换外观,以及拖动内容,同时保持图像...
Read More学习离散化表示是计算机视觉领域的一个令人兴奋的研究领域。像CLIP这样的大规模对比方法一度让离散化研究失去了市场。然而,现在,借助开源扩散模型,我们可以利用文本标记的力量来解开图像中的对象,实现对AI生成图...
Read More**研究团队最新发布的技术论文介绍了SoViT,这是一种针对大小和形状进行了优化的视觉转换器,使用先进的缩放方法,其性能与更大的模型相当,但计算量更少。SoViT在图像分类、字幕生成、视觉问答和零样本转移等各个任...
Read More