漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-01-26 talkingdev

开源|TTT-Discover:推理时强化学习新范式,让大模型实时自适应任务

近日,一个名为TTT-Discover的开源项目在GitHub上发布,其核心创新在于将强化学习(Reinforcement Learning)技术应用于大型语言模型(LLMs)的推理(Inference)阶段,而非传统的训练阶段。这一“测试时训练”(Test-...

Read More
2026-01-14 talkingdev

开源|CaRR:为深度搜索智能体引入引文感知的规则奖励,提升强化学习鲁棒性

清华大学知识工程实验室(THUDM)在GitHub开源了项目CaRR,其对应论文《Chaining the Evidence: Robust Reinforcement Learning for Deep Search Agents with Citation-Aware Rubric Rewards》提出了一种创新方法,...

Read More
2026-01-08 talkingdev

论文推荐|WebGym:为视觉网页智能体构建近30万真实任务的大规模训练场,性能超越GPT-4o

近日,研究人员推出了迄今为止最大规模的开源环境WebGym,专门用于训练能够处理真实世界网页任务的视觉智能体。该环境的核心价值在于解决了现有训练集的局限性:人工合成或小规模任务集无法应对真实网站的多样性和非...

Read More
2026-01-01 talkingdev

开源|哈佛大学CS249R课程开源教材发布,聚焦深度学习与强化学习实战

哈佛大学前沿计算领域近期迎来一项重要开源成果——该校CS249R课程《机器学习系统导论》的官方教材已在GitHub平台全面公开。这本由哈佛大学边缘计算研究小组维护的教材,系统性地涵盖了深度学习与强化学习的核心原理,...

Read More
2025-12-12 talkingdev

谷歌发布Gemini深度研究交互API,AI代理自主驾驭复杂信息搜索

谷歌近日正式向开发者开放了其强大的Gemini深度研究(Gemini Deep Research)功能,通过全新的交互API(Interactions API)提供服务。这一举措标志着AI在复杂信息处理与综合能力方面迈出了重要一步。Gemini深度研究...

Read More
2025-12-08 talkingdev

开源|强化学习研究新视角:奖励机制应被视为智能体的一部分

近期,一项关于强化学习基础理论的讨论在技术社区引发关注。传统强化学习框架通常将奖励函数视为环境的一部分,但新的观点提出,奖励机制本质上应被理解为智能体自身的组成部分。这一范式转换意味着,奖励的“翻译”或...

Read More
2025-11-29 talkingdev

Prime Intellect发布INTELLECT-3:1060亿参数开源MOE模型在数学代码科学领域超越更大模型

人工智能公司Prime Intellect正式推出INTELLECT-3模型,这是一个基于强化学习训练、具备1060亿参数的混合专家开源模型。该模型采用创新的MoE架构,通过动态激活专家网络显著提升计算效率,在数学推理、代码生成、科...

Read More
2025-11-23 talkingdev

Gemini 3横空出世:基准测试全面超越OpenAI,谷歌重新夺回AI竞赛领先地位

谷歌最新发布的Gemini 3大模型在多项基准测试中表现突出,全面超越了OpenAI及其他竞争对手的模型,标志着谷歌在激烈的人工智能竞赛中实现重要突破。该模型在自然语言理解、代码生成和逻辑推理等核心能力上展现出显著...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page