视频生成的相关内容 - 漫话开发者

2026-07-27 talkingdev

英伟达发布SANA-Video 2.0：单GPU即可生成长时720p视频，延迟大幅降低

英伟达实验室（NVIDIA Research）正式推出SANA-Video 2.0，一套面向长视频和高分辨率生成的最新模型方案。该方法在架构上融合了线性注意力（linear attention）与周期性softmax层，一改传统自注意力机制在长序列下的...

2026-07-14 talkingdev

DeepMind提出了GenCeption，将预训练的视频生成模型重新设计为一种可通过文本指令控制的统一视觉系统，引发学界关注。该模型基于前馈、非自回归的生成式架构，不需要针对下游任务进行微调即可同时处理深度估计、表面...

2026-06-02 talkingdev

在生成式AI的激烈竞争中，视频生成与世界模型正成为下一个前沿战场。Ethan He，这位曾领导NVIDIA Cosmos世界模型项目的核心人物，在加入xAI后仅用三个月便主导构建了Grok Imagine图像生成系统。在一篇长达98分钟的深...

2026-05-21 talkingdev

字节跳动近日在GitHub上开源了一款名为Lance的原生统一多模态模型，以其仅3B（30亿）激活参数的设计，在AI领域引起了广泛关注。该模型打破了传统多模态模型需要为不同任务（如图像理解、视频生成、图像编辑等）分别...

2026-05-20 talkingdev

英伟达（NVIDIA）最新开源了LongLive 1.0框架，旨在解决长视频生成领域长期面临的实时交互难题。该框架通过引入流式注意力（Streaming Attention）和KV缓存优化（KV-cache optimization）技术，实现了对超长视频序列...

2026-05-12 talkingdev

在AI视频生成领域，生成连贯的长视频一直是一个技术难题。近期，一个名为A²RD的新型框架被提出，旨在解决这一挑战。A²RD代表“Agentic Autoregressive Diffusion”，即基于智能体的自回归扩散模型。该框架引入了一种独...

2026-04-14 talkingdev

DeepMind的研究团队近日在arXiv上发布了一项名为“弹性循环Transformer”的创新工作，为视觉生成模型领域带来了显著的效率突破。传统视觉生成模型通常依赖堆叠大量独立的Transformer层，导致参数量庞大。ELT的核心创新...

2026-01-23 talkingdev

视频制作领域迎来编程化新范式。Remotion平台近日正式发布其“Agent Skills”功能集，旨在为开发者提供一套在Remotion项目中工作的最佳实践指南。该功能的核心突破在于，允许用户通过Claude Code等代码生成式AI代理，...