漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-08-05 talkingdev

开源|Qwen-Image:突破性图像基础模型实现原生文本渲染

Qwen-Image作为一款200亿参数的MMDiT架构图像基础模型,在复杂文本渲染和精准图像生成领域取得重大突破。该模型不仅能实现多语言(包括字母文字和表意文字)的多行文本布局和段落级语义生成,还能保持编辑过程中的语...

Read More
2025-07-29 talkingdev

Grok即将推出无限图像生成和带声音视频生成功能

xAI公司正为其Grok应用程序准备多项重大更新,其中最引人注目的是Imagine功能,该功能将解锁Grok新的生成式AI模型,用于图像和视频的生成。Grok的图像和视频生成模型限制较少,一旦广泛推出,可能会引发病毒式传播。...

Read More
2025-07-10 talkingdev

Bria开源T2I模型BRIA-3.2:参数仅4B却媲美Flux画质

视觉AI平台服务商Bria近日在Hugging Face发布新一代开源文本生成图像模型BRIA-3.2,其技术突破引发行业关注。该模型仅用4B参数即实现与Adobe Firefly 4.0和Flux[Dev]相当的图像生成质量,且模型体积缩小至三分之一,...

Read More
2025-06-28 talkingdev

通义千问VLo:从“理解”世界到“描绘”世界

多模态大模型的演进不断突破我们对技术能力的认知边界。从最初的QwenVL到最新的Qwen2.5 VL,研究团队在提升模型理解图像内容的能力方面取得了显著进展。如今,团队正式推出全新模型Qwen VLo,这是一个统一的多模态理...

Read More
2025-06-25 talkingdev

[论文推荐]ContinualFlow:生成模型中的持续流优化技术

近日,一项名为ContinualFlow的创新技术为生成模型领域带来突破性进展。该技术通过流向能量重加权目标的匹配方法,直接从模型分布中剔除不需要的区域,从而避免了传统方法所需的完整模型重新训练过程。这一技术的核...

Read More
2025-06-17 talkingdev

DeepSeek R1-0528与FLUX.1 Kontext图像编辑模型登陆Together AI平台,推理API与聊天应用免费体验

Together AI宣布在其Serverless Inference API和专用端点服务中集成两大前沿AI模型:DeepSeek R1-0528语言模型与FLUX.1 Kontext图像生成系统。DeepSeek R1-0528通过升级的推理能力、函数调用支持及代码生成优化,显...

Read More
2025-06-13 talkingdev

Bria 3.2新一代AI图像模型开放早期体验:100%合规数据训练,突破文本渲染技术

Bria最新发布的3.2版本AI图像生成模型在文本渲染领域实现技术突破,该模型采用100%经过授权的合规数据进行训练,为企业用户提供符合知识产权法规的AI解决方案。这一创新显著提升了生成图像中文本元素的准确性和自然...

Read More
2025-06-13 talkingdev

字节跳动Seedance 1.0登顶视频生成基准测试,超越谷歌Veo 3与OpenAI Sora

字节跳动旗下TikTok母公司最新发布的Seedance 1.0模型在文本生成视频(text-to-video)和图像生成视频(image-to-video)两项核心任务中均位列榜首,其性能表现超越谷歌Veo 3与OpenAI Sora等业界标杆。该模型仅需41...

Read More
  1. Prev Page
  2. 2
  3. 3
  4. 4
  5. Next Page