生成模型的相关内容 - 漫话开发者

2026-07-22 talkingdev

通义千问发布Qwen-Image-3.0图像生成模型：支持4.5k token输入，原生渲染12种语言

阿里巴巴通义千问团队近日正式推出第三代基础图像生成模型Qwen-Image-3.0，在内容丰富度、细节真实感和世界知识融合方面实现全面升级。该模型支持最高4.5k token的文本输入，能够精准理解复杂长文本的语义，并生成富...

2026-07-21 talkingdev

索尼音乐娱乐对AI音乐生成平台Udio提起了第二起版权侵权诉讼，指控该公司在未经授权的情况下，复制了多达30,117首受版权保护的录音，用于训练其人工智能音乐生成模型。此次诉讼标志着音乐产业与AI技术公司之间版权战...

2026-07-14 talkingdev

DeepMind提出了GenCeption，将预训练的视频生成模型重新设计为一种可通过文本指令控制的统一视觉系统，引发学界关注。该模型基于前馈、非自回归的生成式架构，不需要针对下游任务进行微调即可同时处理深度估计、表面...

2026-06-30 talkingdev

近日，AI2研究团队在Hugging Face博客上发布了DiScoFormer模型，这是一种基于Transformer架构的创新方法，能够在单次前向传播中同时完成数据的密度估计和得分函数估计，而无需针对新分布进行重新训练。与经典的核密...

2026-06-30 talkingdev

强化学习（RL）在可验证领域（如棋类游戏、编程代码）的成功已毋庸置疑，但现实世界中大量复杂任务（如机器人操控、制药分子设计、开放域对话）难以通过简单规则或自动脚本进行验证，这构成了RL落地的关键瓶颈。本文...

2026-06-22 talkingdev

Morph LLM近期发布了一系列针对开源代码生成模型的优化技术，旨在解决当前推理效率瓶颈。首先，团队通过训练一个专注于模型自身编码输出（而非通用互联网数据）的“起草模型”（drafter），在投机解码中取得了显著加速...

2026-06-04 talkingdev

Ideogram 4 是一款最新的开源权重文本到图像生成模型，完全从零训练而非基于现有模型微调，代表了图像生成领域的一次重要技术迭代。该模型最引人注目的创新在于引入了一种结构化的JSON提示接口，彻底改变了传统自然...

2026-06-02 talkingdev

在生成式AI的激烈竞争中，视频生成与世界模型正成为下一个前沿战场。Ethan He，这位曾领导NVIDIA Cosmos世界模型项目的核心人物，在加入xAI后仅用三个月便主导构建了Grok Imagine图像生成系统。在一篇长达98分钟的深...