漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-09-23 talkingdev

阿里发布通义千问Qwen3-Omni:开源多模态AI模型可处理文本、音频、图像及视频输入并生成文本与语音输出

阿里巴巴正式推出通义千问Qwen3-Omni系列开源人工智能模型,该模型实现了对文本、音频、图像和视频四类模态数据的统一处理能力,并能同步生成文本与语音输出。作为中国科技企业对抗美国科技巨头的重要技术突破,Qwen...

Read More
2025-09-21 talkingdev

挑战Scale AI!Surge AI年收入12亿美元并盈利,CEO陈德伟正以300亿估值融资10亿

根据《福布斯》杂志2025年10/11月刊的深度报道,由前谷歌、Facebook和Twitter资深技术专家Edwin Chen(陈德伟)创立的Surge AI在2024年实现12亿美元营收并实现盈利,现正以300亿美元估值进行10亿美元规模的融资。Sur...

Read More
2025-09-20 talkingdev

xAI发布Grok 4 Fast:200万上下文窗口多模态模型,统一架构整合推理与非推理模式

埃隆·马斯克旗下人工智能公司xAI正式推出新一代多模态模型Grok 4 Fast,该模型突破性地实现了200万token的上下文窗口容量,成为当前业界最大上下文处理能力的模型之一。其革命性在于采用统一架构同时整合了推理模式...

Read More
2025-09-19 talkingdev

开源|Deep Chat:一行代码为网站添加可定制AI聊天组件

Deep Chat是一款高度可定制的AI聊天组件,开发者仅需一行代码即可将其集成到网站中。该项目支持文件共享、摄像头调用、语音通信、Markdown渲染等先进功能,并能无缝对接OpenAI、Hugging Face等主流AI平台的API接口。...

Read More
2025-09-16 talkingdev

苹果发布macOS Tahoe系统:全新Liquid Glass设计深度整合AI与多设备协同

苹果公司正式推出macOS Tahoe操作系统,标志着其桌面生态系统迎来重大革新。该系统采用全新的Liquid Glass设计语言,通过光学级视觉效果重构用户界面体验。技术层面突破体现在三方面:首次原生集成Phone应用实现与iP...

Read More
2025-09-16 talkingdev

OpenAI发布GPT-5-Codex升级版:编程助手迎来革命性进化

OpenAI正式推出GPT-5-Codex,这是专为Codex智能编程代理系统优化的增强版本。新版本在实时协作、独立任务处理和多平台适配方面实现重大突破,支持终端、IDE、网页及移动端全场景编程。升级包含全新CLI工具链、智能ID...

Read More
2025-09-16 talkingdev

开源|HuMo:文本、图像与音频驱动的统一人体视频生成框架

HuMo是一项突破性的人工智能技术,通过统一的多模态输入框架实现了人体视频生成的跨模态融合。该研究团队创新性地构建了大规模数据集并采用渐进式训练策略,成功解决了音频与视觉动作的时序同步难题。其技术核心在于...

Read More
2025-09-12 talkingdev

开源|Nano Banana图像生成示例集:展示Gemini-2.5-flash图像模型的创意潜力

GitHub热门项目「Awesome-Nano-Banana-images」近期引发人工智能社区广泛关注,该项目通过精心策划的示例库,展示了基于Gemini-2.5-flash图像生成模型「Nano Banana🍌」的多样化应用场景。该仓库收录了包括超现实主义...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page