近日,Stability推出了一项名为Stable Virtual Camera的创新技术,该技术基于一种多视角扩散模型,能够从单张或多张2D图像中生成沉浸式3D视频。这一技术允许用户自定义或预设相机轨迹,从而实现对3D场景的灵活控制。...
Read MoreVARGPT是一种多模态大语言模型(MLLM),其独特之处在于将视觉理解与生成功能统一在一个自回归框架内。这一创新设计使得VARGPT能够同时处理文本和图像数据,实现更高效的跨模态信息处理。通过自回归机制,VARGPT不仅...
Read More近日,一个百万规模的文本到视频生成数据集正式发布,该数据集旨在为AI模型的训练提供丰富的视频素材,同时尽量减少与现有视频数据集的重叠。该数据集通过YouTube创作者官方API收集,所有视频均采用CC许可,涵盖了用...
Read MoreYouTube近日宣布,已将DeepMind的Veo 2技术整合至其Dream Screen功能中。这一创新举措使得用户能够通过简单的文本提示生成高质量的AI视频片段。Veo 2的加入不仅提升了视频生成的质量和效率,还为用户提供了更加丰富...
Read MorePika Labs近日发布了其最新视频编辑工具Pikadditions,这是一款基于AI的视频到视频处理工具,能够无缝地将对象和角色嵌入到现有视频中,同时保持高度的真实感。该工具利用先进的embedding技术和LoRA模型,确保添加的...
Read MoreLuma AI近日发布了其最新的大规模视频生成模型Ray2,该模型在真实视觉效果、自然连贯的运动以及逻辑事件序列方面设定了新的标准。Ray2基于Luma全新的多模态架构进行训练,计算能力较前代Ray1提升了10倍。目前,Ray2...
Read MoreMMAudio 是一个创新的视频到音频生成系统,能够以视频作为输入,并根据视频内容生成与之配对的音频。该系统在处理合成视频和真实视频时均表现出色。通过先进的算法和模型,MMAudio 能够捕捉视频中的关键视觉信息,并...
Read More近期,大型语言模型(LLM)因其强大的文本生成能力和广泛的应用场景而受到业界关注。LLM可以完成从文本翻译到内容创作等任务,但其安全性和可靠性引发担忧。一方面,LLM可能被用于生成虚假信息或进行网络攻击,造成...
Read More