2023年初,还没有公开的文本到视频模型可用,但现在有数十个在全球拥有数百万用户的活跃使用模型。虽然这些产品中的许多仍然存在限制,但过去一年的进展表明,这个行业即将发生巨大转变。本文将审视AI视频生成领域迄...
Read More一位MIT生物技术博士生创造了一个原始的屏幕,能够使用大肠杆菌的模拟显示Doom游戏。在生物发光菌上显示一个Doom帧需要大约70分钟。完全重置需要8小时20分钟。有关该项目的视频在本文中提供。这项技术将有望推动生物...
Read MoreProton是一个由ClickHouse驱动的流式SQL引擎,可帮助开发人员解决流式数据处理、路由和分析挑战,并将聚合数据发送到下游系统。Proton快速轻量,是Kafka或Redpanda的最佳流式SQL引擎。该项目提供了演示视频。
Read More医学视频中的目标分割一直是医学影像处理的难点之一。近日,研究人员提出了一种名为 Vivim 的新型医学视频目标分割框架,该框架通过采用状态空间模型的方法对时空数据进行高效压缩,从而在更短的时间内实现更加准确...
Read MoreGoogle、Weizmann科学研究所和特拉维夫大学推出了Lumiere,这是一种用于逼真视频生成的时空扩散模型,相对于现有的AI视频模型,它承诺更连贯的运动和更高的质量。目前尚未公开测试。
Read MoreSyncTalk是逼真的人物形象中的突破。它克服了以往在同步面部身份、唇部运动和表情方面遇到的挑战。SyncTalk使用最新的深度学习技术,通过从少量的样本中学习,以逼真的方式生成高质量的人物形象。 SyncTalk可以应用...
Read MoreLumiere是一款使用时空扩散模型进行逼真视频生成的AI视频生成器。它使用的Space-Time U-Net架构可以一次性生成整个视频的时间持续时间。它旨在处理视频中物体的位置以及物体如何移动和变化。Lumiere可以执行文本到视...
Read More研究人员开发了BriVIS,一种改进开放词汇视频实例分割(VIS)的方法。通过使用一种称为布朗运动桥的技术,BriVIS保持了物体运动在视频帧之间的上下文,从而实现了更准确的视频和文本对齐。
Read MoreOMG-Seg是一种新的模型,可以使用单个高效的系统执行各种图像和视频分割任务。与使用每个任务的不同模型的传统方法不同,OMG-Seg从图像语义到交互式视频分割处理所有内容,是一个一站式解决方案,降低了复杂性并增强...
Read More将文本描述转化为视频是当前研究的热门领域,最近几周出现了许多强大的模型。Hugging Face团队的这篇博客概述了这一任务、当前面临的挑战以及研究的现状。虽然不是完全全面的,但对于进一步阅读提供了良好的起点。
Read More