近期,AI评测领域引发了一场关于评估标准与行业健康发展的激烈讨论。知名在线AI模型排行榜LMArena被批评为一个“破碎的系统”,其核心问题在于评估机制存在严重缺陷。该平台通过用户快速投票进行排名,但用户往往仅根...
Read More近日,研究人员推出了迄今为止最大规模的开源环境WebGym,专门用于训练能够处理真实世界网页任务的视觉智能体。该环境的核心价值在于解决了现有训练集的局限性:人工合成或小规模任务集无法应对真实网站的多样性和非...
Read More近日,一个名为Pi Coding Agent的开源项目在GitHub上发布,为开发者提供了一个功能强大的终端AI编程助手。该项目旨在解决无头(headless)编程任务,支持在macOS、Linux和Windows三大主流操作系统上运行。其核心亮点...
Read More英伟达创始人兼CEO黄仁勋近日宣布,其下一代AI芯片平台Vera Rubin已进入“全面生产”阶段。根据英伟达官方披露的技术信息,Vera Rubin平台在训练特定大型语言模型时,所需芯片数量可大幅减少至当前旗舰Blackwell架构平...
Read More近日,一个名为HGMem的开源项目在GitHub上发布,该项目实现了一篇题为《Improving Multi-step RAG with Hypergraph-based Memory for Long-context Complex Relational Modeling》的论文。HGMem是一个基于超图的工作...
Read More近日,GitHub上开源了一个名为‘Agentic Coding Flywheel Setup’(ACFS)的系统工具,旨在为希望获得智能体工程能力的初学者和团队提供一站式解决方案。该工具的核心价值在于,能够在大约30分钟内,将一个全新的Ubunt...
Read More根据年度回顾分析,2025年是大语言模型(LLM)发展史上具有里程碑意义的一年。核心技术突破体现在模型获得了真正的“推理”能力,使其能够处理复杂的多步骤任务,这直接推动了高性能AI智能体的广泛应用。其中,“编码智...
Read More近日,GitHub上开源项目Ensue Memory Network引发人工智能领域开发者关注。该项目旨在为大型语言模型(LLM)提供一个持久化且可不断生长的“知识树”系统,从根本上解决当前LLM在每次新对话中“重置”上下文、无法积累长...
Read More