近日,Qwen团队发布了一款名为Qwen 2.5 32B的视觉语言模型,该模型不仅具备强大的多模态处理能力,而且完全开源,能够在消费级硬件上高效运行。这一重大突破为AI领域的研究者和开发者提供了更加灵活和便捷的工具,尤...
Read More近日,一项名为SISO的突破性技术引发了业界广泛关注。该技术通过在图像生成和编辑过程中迭代优化相似性损失,实现了无需训练的个性化处理。这一创新意味着用户可以在不进行复杂模型训练的情况下,快速生成或编辑出符...
Read More近日,Stability推出了一项名为Stable Virtual Camera的创新技术,该技术基于一种多视角扩散模型,能够从单张或多张2D图像中生成沉浸式3D视频。这一技术允许用户自定义或预设相机轨迹,从而实现对3D场景的灵活控制。...
Read MoreVARGPT是一种多模态大语言模型(MLLM),其独特之处在于将视觉理解与生成功能统一在一个自回归框架内。这一创新设计使得VARGPT能够同时处理文本和图像数据,实现更高效的跨模态信息处理。通过自回归机制,VARGPT不仅...
Read More近日,一个百万规模的文本到视频生成数据集正式发布,该数据集旨在为AI模型的训练提供丰富的视频素材,同时尽量减少与现有视频数据集的重叠。该数据集通过YouTube创作者官方API收集,所有视频均采用CC许可,涵盖了用...
Read MoreYouTube近日宣布,已将DeepMind的Veo 2技术整合至其Dream Screen功能中。这一创新举措使得用户能够通过简单的文本提示生成高质量的AI视频片段。Veo 2的加入不仅提升了视频生成的质量和效率,还为用户提供了更加丰富...
Read MorePika Labs近日发布了其最新视频编辑工具Pikadditions,这是一款基于AI的视频到视频处理工具,能够无缝地将对象和角色嵌入到现有视频中,同时保持高度的真实感。该工具利用先进的embedding技术和LoRA模型,确保添加的...
Read MoreLuma AI近日发布了其最新的大规模视频生成模型Ray2,该模型在真实视觉效果、自然连贯的运动以及逻辑事件序列方面设定了新的标准。Ray2基于Luma全新的多模态架构进行训练,计算能力较前代Ray1提升了10倍。目前,Ray2...
Read More