漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-07-26 talkingdev

CTVIS-在线视频分割新的训练方法

最近的一份研究论文提出了一种名为一致在线视频实例分割(CTVIS)的新训练方法,以便在视频分割中更好地区分时间线上的对象。通过使用来自多个帧的一致信息,而不仅仅是一个,以及向数据添加噪声,CTVIS可以更有效地处...

Read More
2023-07-24 talkingdev

SlowTV数据集开源,助力单目深度估计能力

近日,研究人员推出了一个名为SlowTV的大规模数据集,该数据集主要从YouTube收集而来,旨在提升自监督单目深度估计模型在不同环境下的深度理解能力。这些环境场景包括徒步旅行的小路、水下场景以及室内空间等。通过...

Read More
2023-07-20 talkingdev

视频对象追踪:基于点的分割方法引领新潮流

最新研究引入了一种名为SAM-PT的新系统,该系统利用Segment Anything Model (SAM)来提高视频中对象的追踪和分割效果。在多个视频分割基准测试中,SAM-PT表现出卓越的性能。SAM-PT的优势在于其对对象的分割和追踪能力...

Read More
2023-07-19 talkingdev

改善视频深度稳定性的新型工具(GitHub Repo)

最近,一篇新的研究论文介绍了一种名为“神经视频深度稳定器”的新方法,可以在视频中提供一致且准确的深度估计。同时,研究团队还发布了有史以来最大的自然场景视频深度数据集,名为“野生视频深度”。通过这种新的方法...

Read More
2023-07-18 talkingdev

Video-FocalNet:更优秀的视频识别系统

该项目介绍了Video-FocalNet,这是一个有效而高效的视频识别系统,它将Transformer和卷积模型的优点合二为一。Video-FocalNet采用了独特的方法,能够有效地分析视频的局部和全局上下文,这使得它在多个大型数据集上...

Read More
2023-07-18 talkingdev

将故事变成电影:一种创新的文本到视频合成框架

这个项目引入了一种突破性的方法,可以通过根据故事情节定制现有视频剪辑的外观,将文字故事转化为连贯的视频。这个新的框架使用先进的算法和技术,能够理解故事的文本内容,然后通过分析和解析文本中的关键信息,将...

Read More
2023-07-17 talkingdev

个性化文本到图像模型:让你的创作动起来

这份报告介绍了一个新系统,它可以为您使用Stable Diffusion、DreamBooth、LoRA等个性化文本到图像模型创建的任何图像添加逼真的运动。该系统使用一个“运动模块”,从现实生活的视频中学习,并可添加到任何文本到图像...

Read More
2023-07-13 talkingdev

AI工具CAT-ViL:实现手术视频的可视化解答

本文介绍了一种深度学习工具——CAT-ViL,该工具能够对手术视频进行详细的解答并进行可视化。这是一项实质性的创新,将极大地帮助医学生和初级外科医生的学习和实践。通过CAT-ViL工具,用户可以通过查询特定的手术步骤...

Read More
2023-07-04 talkingdev

文本生成无缝视频方案开源

本论文提出了一种新的方法,用于从文本生成一致且高质量的视频。它通过使用经过调整的图像模型创建关键帧,然后利用特殊的匹配和混合技术将这些样式传播到整个视频中,从而产生外观出色且流畅的视频

Read More
2023-07-03 talkingdev

Humane首款设备命名为“Humane Ai Pin”,将于今年发布

Humane是由前苹果员工创立的一家公司,旨在打造一个以人工智能为先的后智能手机时代。该公司宣布其首款设备将被命名为Humane Ai Pin。目前关于这款设备的工作原理、功能和外观等信息还不多。Humane与高通合作,将使...

Read More
  1. Prev Page
  2. 31
  3. 32
  4. 33
  5. Next Page