漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-12-02 talkingdev

开源|苹果发布STARFlow与STARFlow-V:基于Transformer自回归流的图像与视频生成新突破

苹果公司在Hugging Face平台开源了STARFlow与STARFlow-V模型,标志着图像与视频生成领域迎来了一项重要的技术进展。STARFlow是一种创新的Transformer自回归流模型,其核心在于巧妙地将自回归模型强大的表达能力与归...

Read More
2025-11-05 talkingdev

超越标准大语言模型:线性注意力混合架构与文本扩散模型引领新浪潮

当前最强大的开源大语言模型普遍采用自回归解码器架构的Transformer模型,但近年来涌现出多种创新架构。这些模型不仅关注计算效率的提升,更致力于突破性能瓶颈。文本扩散模型通过模拟去噪过程生成连贯文本,在创造...

Read More
2025-10-21 talkingdev

BERT竟是单步文本扩散?谷歌DeepMind新研究揭示语言模型本质关联

近日,谷歌DeepMind团队发布的Gemini Diffusion实验性语言模型引发学界关注。该模型突破传统GPT逐词生成范式,采用扩散模型技术通过逐步去噪的方式直接生成完整文本块。研究人员在研读《大语言扩散模型》论文时发现...

Read More
2025-05-14 talkingdev

视觉自回归方法EAR开源:无需量化的连续空间生成技术

近期GitHub开源项目EAR提出了一种突破性的视觉自回归生成方法,通过采用严格适当评分规则(如能量评分)绕过了传统量化步骤,直接在连续数据空间中进行生成。该技术摒弃了传统概率建模的约束,通过数学上严谨的评分...

Read More
2025-04-29 talkingdev

Valeo AI推出VaViM和VaVAM:生成式视频模型革新自动驾驶轨迹预测

Valeo AI最新发布了两项突破性技术:VaViM自回归视频模型和VaVAM驾驶轨迹预测模型。VaViM通过时空令牌序列预测技术,实现了对连续视频帧的高精度建模;而VaVAM则创新性地将学习到的视频表征通过模仿学习转化为可执行...

Read More
2025-04-22 talkingdev

Hugging Face发布MAGI 1:自回归视频生成模型实现长视频一致性生成

Hugging Face Hub最新推出的MAGI 1模型标志着自回归视频生成技术的重要突破。该模型能够生成具有长期一致性的长视频内容,其性能与Wan视频生成模型相当,虽略逊于某些闭源商业模型,但作为开源解决方案展现出显著竞...

Read More
2025-04-21 talkingdev

[论文推荐]自回归模型实现个性化图像合成:两阶段优化媲美扩散模型

最新研究通过两阶段优化策略,成功将自回归模型应用于个性化图像生成领域,其生成质量已达到当前主流的扩散模型水平。该论文提出创新性训练框架,第一阶段通过大规模数据集预训练构建基础模型,第二阶段采用针对性微...

Read More
2025-03-25 talkingdev

[开源] Baichuan Omni 1.5:开源全模态基础模型支持多模态输入输出

Baichuan Omni 1.5 是一款支持文本、图像、视频和音频输入以及文本和音频输出的开源全模态基础模型。该模型采用任意到任意(any-to-any)的设计风格,属于原生多模态模型的一种典型代表。其核心技术在于使用了交错的...

Read More
  1. Next Page