BERT竟是单步文本扩散？谷歌DeepMind新研究揭示语言模型本质关联

talkingdev • 2025-10-21

133328 views

近日，谷歌DeepMind团队发布的Gemini Diffusion实验性语言模型引发学界关注。该模型突破传统GPT逐词生成范式，采用扩散模型技术通过逐步去噪的方式直接生成完整文本块。研究人员在研读《大语言扩散模型》论文时发现，离散语言扩散本质上是掩码语言建模（MLM）的泛化形式——这一技术自2018年BERT问世以来已被广泛应用。更令人惊讶的是，实验证明经过微调的BERT类模型同样具备文本生成能力，这颠覆了人们对预训练模型功能边界认知。该发现不仅建立了生成式与理解式模型的数学联系，也为大语言模型架构创新提供了新思路。目前相关技术细节已在个人技术博客公开，并在技术社区引发375点热议和93条深度讨论，显示出业界对该技术路径的强烈兴趣。

核心要点

Gemini Diffusion采用扩散模型实现整段文本生成，突破传统自回归模型局限
研究揭示离散文本扩散本质是掩码语言建模的泛化形式
实验证明BERT类模型经微调后可具备文本生成能力

BERT竟是单步文本扩散？谷歌DeepMind新研究揭示语言模型本质关联

核心要点

Related posts