尽管大型语言模型(LLMs)在众多自然语言处理任务中取得了成功,但在交通安全领域却显得力不从心,因为这需要专门的知识。为解决这个问题,研究人员开发了TrafficSafetyGPT,这是一个经过独特数据集微调的LLM模型。...
Read More这项研究提出了一个新的范式,用于创建大规模、多样化的数据集,以训练AI代理进行视觉导航。在这种新的方法中,我们采用了一种创新的数据生成策略,这种策略能够有效地处理大规模的数据,同时保证数据的多样性和质量...
Read More近日,已发布超过400万对高质量、经过策划的文本和图像对,用于视觉问题回答。所有这些数据都是由Midjourney合成生成的,因此有人戏称这个数据集为Midjourney蒸馏数据集。这意味着该数据集能够提供丰富的视觉和语言...
Read More这个仓库介绍了HQTrack,这是一个高质量的视频对象追踪框架,利用先进的感知算法来追踪单个和多个对象,同时精细化他们的边界。尽管只在有限的数据集上进行训练,HQTrack通过在不使用任何额外的数据增强或模型集成的...
Read More近日,研究人员推出了一个名为SlowTV的大规模数据集,该数据集主要从YouTube收集而来,旨在提升自监督单目深度估计模型在不同环境下的深度理解能力。这些环境场景包括徒步旅行的小路、水下场景以及室内空间等。通过...
Read More估计手部与物体接触的时机对于增强现实/虚拟现实和机器人技术来说是一项关键挑战。在深度学习领域,数据就是女王。这个新的大规模数据集包含了数百万帧的标注数据,可用于执行各种任务,如手部重构、模拟物体运动等...
Read More最近,一篇新的研究论文介绍了一种名为“神经视频深度稳定器”的新方法,可以在视频中提供一致且准确的深度估计。同时,研究团队还发布了有史以来最大的自然场景视频深度数据集,名为“野生视频深度”。通过这种新的方法...
Read More该项目介绍了Video-FocalNet,这是一个有效而高效的视频识别系统,它将Transformer和卷积模型的优点合二为一。Video-FocalNet采用了独特的方法,能够有效地分析视频的局部和全局上下文,这使得它在多个大型数据集上...
Read More