图像生成的相关内容 - 漫话开发者

2026-07-24 talkingdev

微软发布MAI-Image-2.5-Pro与MAI-Voice-2-Flash：高保真图像生成和超低延迟语音模型正式公开预览

微软正式推出两款全新自研AI模型——MAI-Image-2.5-Pro和MAI-Voice-2-Flash，进一步强化其在多模态生成领域的布局。MAI-Image-2.5-Pro专注于高保真图像生成与编辑，能够根据复杂文本描述生成细节丰富、构图精准的高质...

2026-07-22 talkingdev

阿里巴巴通义千问团队近日正式推出第三代基础图像生成模型Qwen-Image-3.0，在内容丰富度、细节真实感和世界知识融合方面实现全面升级。该模型支持最高4.5k token的文本输入，能够精准理解复杂长文本的语义，并生成富...

2026-07-12 talkingdev

人工智能图像生成平台 Ideogram 发布 V4 版本，其在 fal 推理服务上实现了令人瞩目的性能飞跃。在 1K 分辨率下，单张图像的生成时间从原先的 2.75 秒锐减至 0.44 秒，提速达到 6 倍以上，且视觉质量无明显下降。这一...

2026-06-05 talkingdev

Tether团队近日发布了QVAC SDK的最新版本，这是一款面向本地设备、专注于构建跨平台P2P应用的开源工具包。此次更新的核心亮点在于集成了名为TurboQuant的全新优化技术。通过这一技术，开发者在相同硬件条件下，能够...

2026-06-04 talkingdev

Ideogram 4 是一款最新的开源权重文本到图像生成模型，完全从零训练而非基于现有模型微调，代表了图像生成领域的一次重要技术迭代。该模型最引人注目的创新在于引入了一种结构化的JSON提示接口，彻底改变了传统自然...

2026-06-02 talkingdev

在生成式AI的激烈竞争中，视频生成与世界模型正成为下一个前沿战场。Ethan He，这位曾领导NVIDIA Cosmos世界模型项目的核心人物，在加入xAI后仅用三个月便主导构建了Grok Imagine图像生成系统。在一篇长达98分钟的深...

2026-04-27 talkingdev

来自arxiv的最新研究提出了一种名为Vision Banana的通用视觉模型，该模型的核心创新在于将传统的视觉感知任务重新表述为图像生成问题。通过指令微调（instruction-tuning）的图像生成模型，Vision Banana能够在多种...

2026-04-22 talkingdev

OpenAI正式推出ChatGPT Images 2.0，标志着其图像生成技术迈入新阶段。该模型基于前沿的生成式人工智能技术，在核心能力上实现了多维突破。首先，其文本渲染能力获得显著改善，能够更精准地将复杂文本提示转化为视觉...