漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-01-23 talkingdev

小模型大作为:谷歌提出分解法,实现更优意图理解,兼顾效率与隐私

谷歌研究团队近日发布了一项关于提升智能体意图理解能力的技术成果。核心观点指出,要让AI智能体真正发挥作用,其底层模型必须精准理解用户交互时的真实意图。当前,大型多模态大语言模型虽已在此任务上表现不俗,但...

Read More
2026-01-23 talkingdev

开源|通义千问Qwen3-TTS系列全面开源:支持语音克隆、音色设计与多语言生成

阿里云旗下通义千问团队正式宣布,其Qwen3-TTS系列语音生成模型现已全面开源。该系列模型代表了当前语音合成领域的前沿技术水平,集成了语音克隆、音色设计、超高拟人度语音生成以及基于自然语言的语音控制等核心功...

Read More
2026-01-20 talkingdev

开源|Meta发布ShapeR:从图像序列生成完整3D场景网格

Meta AI研究院近日在GitHub开源了ShapeR项目,该项目代表了3D场景重建领域的一项重要进展。ShapeR的核心技术在于能够仅从一系列图像中,重建出完整的、高质量的三维场景网格。其技术路径颇具创新性:首先,系统从输...

Read More
2026-01-14 talkingdev

开源|GLM-Image:融合自回归与扩散解码的工业级图像生成模型问世,专攻文本渲染与知识密集型场景

近日,开源社区迎来一款名为GLM-Image的工业级离散自回归图像生成模型,其采用了一种创新的混合架构,将自回归模块与扩散解码器相结合,标志着生成式AI在图像合成领域的技术路线探索进入新阶段。该模型的核心优势在...

Read More
2026-01-08 talkingdev

开源|Hugging Face发布FinePDFs:从PDF中解放3万亿高质量训练令牌

在开源人工智能社区中,PDF文档长期以来被视为一座未被充分挖掘的高质量数据金矿。近日,Hugging Face团队正式发布了其开创性的预训练数据集项目——FinePDFs,成功从海量PDF文档中提取并构建了一个规模超过3万亿令牌...

Read More
2025-12-30 talkingdev

开源|Crawl4AI:专为大型语言模型设计的开源网页抓取与解析工具

近日,一个名为Crawl4AI的开源项目在GitHub上发布,旨在为大型语言模型(LLM)提供友好、高效的网页抓取与内容解析解决方案。该项目由开发者unclecode主导,其核心目标是简化从复杂网页中提取结构化信息的流程,并将...

Read More
2025-12-24 talkingdev

开源|PyTorch推出ExecuTorch:统一移动、嵌入式和边缘设备的端侧AI部署方案

Meta旗下PyTorch团队正式开源ExecuTorch项目,这是一个专为在移动设备、嵌入式系统和边缘计算节点上高效部署人工智能模型而设计的端到端解决方案。ExecuTorch旨在解决AI模型在资源受限环境中的部署难题,其核心价值...

Read More
2025-12-24 talkingdev

开源|Stirrup:让AI模型自主选择任务路径的轻量级智能体框架发布

近日,GitHub上开源了一个名为Stirrup的新型轻量级框架,专为构建高级智能体(Agent)而设计。该框架的核心创新在于其“模型自主决策”理念:不同于传统框架严格规定执行流程,Stirrup允许AI模型根据任务情境,自行选...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page