多模态生成的相关内容 - 漫话开发者

2026-07-24 talkingdev

微软发布MAI-Image-2.5-Pro与MAI-Voice-2-Flash：高保真图像生成和超低延迟语音模型正式公开预览

微软正式推出两款全新自研AI模型——MAI-Image-2.5-Pro和MAI-Voice-2-Flash，进一步强化其在多模态生成领域的布局。MAI-Image-2.5-Pro专注于高保真图像生成与编辑，能够根据复杂文本描述生成细节丰富、构图精准的高质...

2026-06-02 talkingdev

英伟达今日正式发布Cosmos 3，这是一款面向物理AI的开源世界基础模型，标志着AI在理解与生成物理世界能力上的重大突破。Cosmos 3采用了创新的混合专家变换器（Mixture-of-Transformers）架构，将视觉推理、世界生成...

2025-12-10 talkingdev

近日，一项名为Saber的零样本视频生成框架引起了人工智能与计算机视觉领域的广泛关注。该框架的核心突破在于，能够仅依据单张参考图像和文本提示，生成与参考对象身份高度一致的高质量视频。其技术关键在于，整个训...

2025-09-16 talkingdev

HuMo是一项突破性的人工智能技术，通过统一的多模态输入框架实现了人体视频生成的跨模态融合。该研究团队创新性地构建了大规模数据集并采用渐进式训练策略，成功解决了音频与视觉动作的时序同步难题。其技术核心在于...

2025-04-25 talkingdev

Adobe近日发布了Firefly的重大更新，此次更新不仅整合了图像、视频、音频及矢量生成工具，还新增了移动端支持，并进一步深化了与Creative Cloud的集成。这一举措标志着Adobe在创意AI领域的又一重要突破，为设计师和...

2025-04-18 talkingdev

近日，一项名为REPA-E的技术突破引发了机器学习领域的广泛关注。该技术通过创新的表示对齐损失函数，首次实现了变分自编码器(VAE)与潜在扩散模型的稳定联合训练。这种端到端的训练方法在ImageNet数据集上取得了当前...

2025-04-15 talkingdev

谷歌云在Next 25大会上宣布Vertex AI迎来重大更新，其视频、图像、语音及音乐生成模型获得增强功能，显著提升企业创意工作流的智能化水平。谷歌AI推出面向企业的专用AI代理解决方案，通过优化任务自动化流程实现生产...

2025-03-13 talkingdev

近期，Motion Anything项目通过引入基于注意力的掩码建模（Attention-based Mask Modeling）技术，显著提升了条件运动生成的能力。这项技术不仅在空间控制上实现了更精细的调节，还在时间维度上提供了更高的灵活性，...