生成模型的相关内容 - 漫话开发者

2026-01-14 talkingdev

开源|GLM-Image：融合自回归与扩散解码的工业级图像生成模型问世，专攻文本渲染与知识密集型场景

近日，开源社区迎来一款名为GLM-Image的工业级离散自回归图像生成模型，其采用了一种创新的混合架构，将自回归模块与扩散解码器相结合，标志着生成式AI在图像合成领域的技术路线探索进入新阶段。该模型的核心优势在...

2026-01-10 talkingdev

据彭博社报道，中国短视频巨头快手科技的股价在过去一年中实现了惊人的88%涨幅，其核心驱动力来自于旗下AI视频生成模型“Kling”的巨大成功。该模型自推出以来，已迅速积累了超过6000万用户，成为公司向人工智能战略转...

2025-12-10 talkingdev

近日，一项名为Saber的零样本视频生成框架引起了人工智能与计算机视觉领域的广泛关注。该框架的核心突破在于，能够仅依据单张参考图像和文本提示，生成与参考对象身份高度一致的高质量视频。其技术关键在于，整个训...

2025-12-02 talkingdev

近日，GitHub上开源了一个名为ViBT（Vision Bridge Transformer）的项目，该项目将布朗桥模型（Brownian Bridge Models）扩展至高达200亿参数规模，专门用于高效的图像与视频条件生成任务。ViBT的核心创新在于其采用...

2025-12-02 talkingdev

苹果公司在Hugging Face平台开源了STARFlow与STARFlow-V模型，标志着图像与视频生成领域迎来了一项重要的技术进展。STARFlow是一种创新的Transformer自回归流模型，其核心在于巧妙地将自回归模型强大的表达能力与归...

2025-11-26 talkingdev

人工智能研究领域迎来重大突破——Nano Banana Pro通过工具调用技术重新定义了信息图生成的边界。该模型能够主动抓取多源数据并进行智能合成，在保持原始数据准确性的基础上，通过算法优化生成具有视觉表现力的信息图...

2025-11-24 talkingdev

谷歌AI工作室最新推出的Nano Banana Pro标志着AI图像生成技术进入新阶段。该工具集成了多模态推理、实时网络搜索和4K超高清渲染三大核心能力，能够根据复杂指令自动获取知识并生成高质量视觉内容。与传统图像生成模...

2025-11-12 talkingdev

近日，长期开发iOS照片应用的科技团队LateNiteSoft发布了一项针对三大前沿AI图像生成模型的深度评测。该研究通过600余次真实场景的图像生成测试，系统评估了OpenAI的gpt-image-1、Google的nanoBanana（Gemini）以及S...