BERT竟是单步文本扩散?谷歌DeepMind新研究揭示语言模型本质关联
talkingdev • 2025-10-21
2922 views
近日,谷歌DeepMind团队发布的Gemini Diffusion实验性语言模型引发学界关注。该模型突破传统GPT逐词生成范式,采用扩散模型技术通过逐步去噪的方式直接生成完整文本块。研究人员在研读《大语言扩散模型》论文时发现,离散语言扩散本质上是掩码语言建模(MLM)的泛化形式——这一技术自2018年BERT问世以来已被广泛应用。更令人惊讶的是,实验证明经过微调的BERT类模型同样具备文本生成能力,这颠覆了人们对预训练模型功能边界认知。该发现不仅建立了生成式与理解式模型的数学联系,也为大语言模型架构创新提供了新思路。目前相关技术细节已在个人技术博客公开,并在技术社区引发375点热议和93条深度讨论,显示出业界对该技术路径的强烈兴趣。
核心要点
- Gemini Diffusion采用扩散模型实现整段文本生成,突破传统自回归模型局限
- 研究揭示离散文本扩散本质是掩码语言建模的泛化形式
- 实验证明BERT类模型经微调后可具备文本生成能力