漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-10-15 talkingdev

表征自编码器革新扩散Transformer:多模态预训练模型驱动图像生成质量突破

近期发布的表征自编码器(RAE)技术为潜在扩散模型带来重大升级。该技术通过使用DINO、SigLIP或MAE等预训练编码器替代传统变分自编码器(VAE),结合学习型解码器构建高维潜在空间。实验表明,这种新型架构能显著提...

Read More
2025-10-10 talkingdev

开源|Sora MCP:为大型语言模型接入Sora视频生成能力

近日GitHub平台出现名为Sora MCP的开源项目,该项目通过构建MCP(模型控制协议)服务器,首次实现大型语言模型直接调用Sora视频生成API的技术突破。该工具使LLMs具备创建Sora视频、实时查询生成状态、将生成视频下载...

Read More
2025-10-07 talkingdev

OpenAI发布ChatGPT应用开发框架Apps SDK,加速AI应用生态构建

OpenAI正式推出Apps SDK开发框架,为开发者提供构建ChatGPT专属应用的核心工具链。该框架通过标准化接口封装了对话管理、上下文控制和多模态交互能力,支持快速集成知识库检索、工作流编排等企业级功能。技术文档显...

Read More
2025-10-03 talkingdev

开源|Vision-Zero:基于视觉博弈策略的自监督VLM训练框架

Vision-Zero项目提出了一种突破性的视觉语言模型训练范式,通过生成式对抗游戏实现自监督学习。该框架的核心创新在于利用任意图像对构建竞争性视觉游戏,使模型在无需人工标注的情况下,通过策略性自我博弈持续优化...

Read More
2025-10-02 talkingdev

开源|OpenTSLM:突破时序数据理解瓶颈,开启基础模型新前沿

斯坦福大学联合苏黎世联邦理工学院、谷歌、亚马逊等机构的研究团队今日发布开源项目OpenTSLM,首次实现时间序列与文本的多模态统一建模。该模型通过交叉注意力架构突破长时序数据处理瓶颈,在睡眠分期任务中实现准确...

Read More
2025-09-23 talkingdev

阿里发布通义千问Qwen3-Omni:开源多模态AI模型可处理文本、音频、图像及视频输入并生成文本与语音输出

阿里巴巴正式推出通义千问Qwen3-Omni系列开源人工智能模型,该模型实现了对文本、音频、图像和视频四类模态数据的统一处理能力,并能同步生成文本与语音输出。作为中国科技企业对抗美国科技巨头的重要技术突破,Qwen...

Read More
2025-09-21 talkingdev

挑战Scale AI!Surge AI年收入12亿美元并盈利,CEO陈德伟正以300亿估值融资10亿

根据《福布斯》杂志2025年10/11月刊的深度报道,由前谷歌、Facebook和Twitter资深技术专家Edwin Chen(陈德伟)创立的Surge AI在2024年实现12亿美元营收并实现盈利,现正以300亿美元估值进行10亿美元规模的融资。Sur...

Read More
2025-09-20 talkingdev

xAI发布Grok 4 Fast:200万上下文窗口多模态模型,统一架构整合推理与非推理模式

埃隆·马斯克旗下人工智能公司xAI正式推出新一代多模态模型Grok 4 Fast,该模型突破性地实现了200万token的上下文窗口容量,成为当前业界最大上下文处理能力的模型之一。其革命性在于采用统一架构同时整合了推理模式...

Read More
  1. Prev Page
  2. 5
  3. 6
  4. 7
  5. Next Page