自主科研的相关内容 - 漫话开发者

2026-02-11 talkingdev

开源|AIRS-Bench：Meta发布首个端到端AI研究能力基准，量化大模型代理的科研潜力

Meta（原Facebook）旗下研究团队近日在GitHub开源了AIRS-Bench基准测试框架，旨在系统性地量化大型语言模型（LLM）代理在真实世界人工智能研究任务中的端到端能力。该基准包含20个精心设计的机器学习研究任务，每个...

2025-05-05 talkingdev

中国人民大学自然语言处理实验室推出的WebThinker框架，标志着大语言模型（LRMs）向自主科研领域迈出关键一步。该开源项目通过构建深度研究架构，使LRMs具备三项突破性能力：1）智能化的全网信息检索系统，可自主定...