近日,谷歌DeepMind团队发布的Gemini Diffusion实验性语言模型引发学界关注。该模型突破传统GPT逐词生成范式,采用扩散模型技术通过逐步去噪的方式直接生成完整文本块。研究人员在研读《大语言扩散模型》论文时发现...
Read More近期发布的表征自编码器(RAE)技术为潜在扩散模型带来重大升级。该技术通过使用DINO、SigLIP或MAE等预训练编码器替代传统变分自编码器(VAE),结合学习型解码器构建高维潜在空间。实验表明,这种新型架构能显著提...
Read MoreHuMo是一项突破性的人工智能技术,通过统一的多模态输入框架实现了人体视频生成的跨模态融合。该研究团队创新性地构建了大规模数据集并采用渐进式训练策略,成功解决了音频与视觉动作的时序同步难题。其技术核心在于...
Read More专注于AI视频生成技术的初创公司Higgsfield.ai近日宣布成功完成5000万美元的A轮融资,本轮由GFT Ventures领投。该公司致力于通过人工智能技术革新视频内容创作流程,其技术可实现基于文本或图像的自动化视频生成,显...
Read More加州大学洛杉矶分校研究团队最新提出的NVG(Next Visual Granularity)框架,标志着图像生成领域取得重大技术突破。该创新性方法采用结构化序列建模技术,通过多层次渐进式优化机制,首次实现了从全局布局语义到局部...
Read More谷歌开发者博客宣布,其先进的文本生成图像模型Imagen 4系列现已在Gemini API中全面开放使用,同时推出性能优化的Imagen 4 Fast版本。这一里程碑式更新标志着多模态AI技术进入工业化应用阶段,开发者可基于该API实现...
Read More近日,研究人员发布了新一代商业级大语言模型Mercury,该模型基于扩散模型技术,采用Transformer架构进行参数化,并能够并行预测多个token。报告重点介绍了Mercury Coder,这是首套专为编程应用设计的扩散大语言模型...
Read More开发者yousef-rafat在GitHub上开源了miniDiffusion项目,这是一个完全使用PyTorch重新实现的Stable Diffusion 3.5版本。该项目去除了原始实现中的复杂依赖,仅依靠PyTorch框架,使得模型更加轻量化和易于理解。这一...
Read More