多模态的相关内容 - 漫话开发者

2025-10-15 talkingdev

表征自编码器革新扩散Transformer：多模态预训练模型驱动图像生成质量突破

近期发布的表征自编码器（RAE）技术为潜在扩散模型带来重大升级。该技术通过使用DINO、SigLIP或MAE等预训练编码器替代传统变分自编码器（VAE），结合学习型解码器构建高维潜在空间。实验表明，这种新型架构能显著提...

2025-10-10 talkingdev

近日GitHub平台出现名为Sora MCP的开源项目，该项目通过构建MCP（模型控制协议）服务器，首次实现大型语言模型直接调用Sora视频生成API的技术突破。该工具使LLMs具备创建Sora视频、实时查询生成状态、将生成视频下载...

2025-10-07 talkingdev

OpenAI正式推出Apps SDK开发框架，为开发者提供构建ChatGPT专属应用的核心工具链。该框架通过标准化接口封装了对话管理、上下文控制和多模态交互能力，支持快速集成知识库检索、工作流编排等企业级功能。技术文档显...

2025-10-03 talkingdev

Vision-Zero项目提出了一种突破性的视觉语言模型训练范式，通过生成式对抗游戏实现自监督学习。该框架的核心创新在于利用任意图像对构建竞争性视觉游戏，使模型在无需人工标注的情况下，通过策略性自我博弈持续优化...

2025-10-02 talkingdev

斯坦福大学联合苏黎世联邦理工学院、谷歌、亚马逊等机构的研究团队今日发布开源项目OpenTSLM，首次实现时间序列与文本的多模态统一建模。该模型通过交叉注意力架构突破长时序数据处理瓶颈，在睡眠分期任务中实现准确...

2025-09-23 talkingdev

阿里巴巴正式推出通义千问Qwen3-Omni系列开源人工智能模型，该模型实现了对文本、音频、图像和视频四类模态数据的统一处理能力，并能同步生成文本与语音输出。作为中国科技企业对抗美国科技巨头的重要技术突破，Qwen...

2025-09-21 talkingdev

根据《福布斯》杂志2025年10/11月刊的深度报道，由前谷歌、Facebook和Twitter资深技术专家Edwin Chen（陈德伟）创立的Surge AI在2024年实现12亿美元营收并实现盈利，现正以300亿美元估值进行10亿美元规模的融资。Sur...

2025-09-20 talkingdev

埃隆·马斯克旗下人工智能公司xAI正式推出新一代多模态模型Grok 4 Fast，该模型突破性地实现了200万token的上下文窗口容量，成为当前业界最大上下文处理能力的模型之一。其革命性在于采用统一架构同时整合了推理模式...