计算机视觉的相关内容 - 漫话开发者

2023-08-15 talkingdev

DatasetDM，计算机视觉合成图像生成崛起

该项目引入了一种名为DatasetDM的新工具，它可以生成无尽的虚假图像，并附带详细的标签，比如哪部分是哪个对象或者图像中的物体离得有多远。这对于训练计算机视觉系统非常有用，仅使用一小部分真实照片，合成的图像...

2023-08-10 talkingdev

深度神经网络在计算机视觉领域有着出色的表现，但是更快的推理时间是必要的。这篇论文介绍了一种新的Inter-Class Similarity Distillation方法和一种Adaptive Loss Weighting策略，能够更好地从老师网络向学生网络传...

2023-07-26 talkingdev

该存储库引入了一项名为“描述性物体检测”的新实践任务，它通过允许基于多样化语言描述进行物体检测，而不仅仅是基于预先存在的对象，从而改进了先前的方法。这种新的物体检测方式，更能符合实际应用需求，无论是在复...

2023-07-24 talkingdev

近日，研究人员推出了一个名为SlowTV的大规模数据集，该数据集主要从YouTube收集而来，旨在提升自监督单目深度估计模型在不同环境下的深度理解能力。这些环境场景包括徒步旅行的小路、水下场景以及室内空间等。通过...

2023-07-19 talkingdev

最近，一篇新的研究论文介绍了一种名为“神经视频深度稳定器”的新方法，可以在视频中提供一致且准确的深度估计。同时，研究团队还发布了有史以来最大的自然场景视频深度数据集，名为“野生视频深度”。通过这种新的方法...

2023-07-08 talkingdev

DragonDiffusion是一种全新的方法，旨在提高文本到图像模型的编辑精度。通过在扩散模型中利用特征对应，DragonDiffusion可以进行各种详细的图像修改，如移动和调整对象的大小，替换外观，以及拖动内容，同时保持图像...

2023-07-05 talkingdev

Scenic是一个以注意力为核心的计算机视觉研究代码库。

2023-06-26 talkingdev

学习离散化表示是计算机视觉领域的一个令人兴奋的研究领域。像CLIP这样的大规模对比方法一度让离散化研究失去了市场。然而，现在，借助开源扩散模型，我们可以利用文本标记的力量来解开图像中的对象，实现对AI生成图...