漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-10-17 talkingdev

递归语言模型:突破上下文限制的新范式

斯坦福大学研究人员提出的递归语言模型(RLMs)实现了突破性的推理架构创新。该模型通过REPL环境将输入上下文分解为可交互变量,实现了对无限长上下文的递归处理。在OOLONG基准测试中,基于GPT-5-mini构建的RLMs模型...

Read More
2025-10-16 talkingdev

Anthropic发布Claude Haiku 4.5:小模型实现前沿性能突破

人工智能公司Anthropic正式推出新一代小型AI模型Claude Haiku 4.5,该模型在保持成本效益与运行速度优势的同时,实现了接近前沿大模型的性能表现。据官方披露,这款模型在多项基准测试中不仅超越了前代版本,更在计...

Read More
2025-10-14 talkingdev

InferenceMAX开源推理基准发布:NVIDIA与AMD芯片性能正面交锋

业界瞩目的开源AI推理基准测试工具InferenceMAX正式亮相,该工具通过夜间自动化测试对Llama 70B、DeepSeek R1等主流大模型进行持续性能评估。其核心价值在于量化AI推理中的关键权衡:吞吐量(每GPU每秒处理令牌数)...

Read More
2025-10-13 talkingdev

论文推荐|ReasoningBank:基于推理记忆实现智能体自我进化的突破性框架

清华大学与斯坦福大学联合研究团队近日发布突破性研究成果ReasoningBank,该框架通过构建推理记忆系统解决长期困扰大语言模型智能体的历史经验复用难题。传统智能体在持续执行现实任务时,往往将每次交互视为独立事...

Read More
2025-10-10 talkingdev

论文推荐|BlockRank:生成式模型实现可扩展上下文排序,效率提升4.7倍

近日,信息检索领域迎来突破性进展——基于生成式模型的上下文排序(ICR)技术实现规模化应用。传统ICR方法通过将任务描述、候选文档和查询直接输入大语言模型(LLM)来识别相关文档,虽效果显著但存在计算效率瓶颈:...

Read More
2025-09-30 talkingdev

Anthropic发布Claude Sonnet 4.5:刷新代码生成与智能体开发新标杆

人工智能公司Anthropic正式推出Claude Sonnet 4.5模型,该模型在SWE-bench Verified基准测试中以77.2%的得分刷新世界纪录,成为当前全球最卓越的代码生成模型。此次升级在计算机操作、复杂推理和数学计算三大核心领...

Read More
2025-09-26 talkingdev

AI编程基准测试真相:流行评测到底在衡量什么?

最新技术分析揭示,当前流行的AI编程基准测试(如SWE-bench)实际测量范围远窄于其名称所暗示的能力。研究表明,Claude在SWE-bench获得80%评分并不等同于能一次性解决80%的实际编程任务。本文深度剖析SWE-bench Veri...

Read More
2025-09-18 talkingdev

Tau²基准测试揭秘:简单提示词改写竟让GPT-5-mini性能飙升22%

Quesma实验室最新发布的Tau²基准测试研究表明,通过精细化提示词工程可显著提升轻量级AI模型在工具调用场景中的表现。该团队针对GPT-5-mini模型进行提示词重构后,在模拟真实工具使用场景的基准测试中成功率提升超20...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page