Meta(原Facebook)旗下研究团队近日在GitHub开源了AIRS-Bench基准测试框架,旨在系统性地量化大型语言模型(LLM)代理在真实世界人工智能研究任务中的端到端能力。该基准包含20个精心设计的机器学习研究任务,每个...
Read More近日,一个名为ClawSec的综合性安全技能套件在GitHub开源发布,该项目专为OpenClaw系列AI智能体设计,旨在为AI代理的运行环境提供端到端的安全防护。该套件集成了多项前沿安全技术,包括自动化安全审计、实时安全建...
Read MorePydantic团队近日在GitHub开源了Monty项目,这是一个用Rust语言编写的极简、安全的Python解释器,专为人工智能应用场景设计。该项目在Hacker News技术社区引发广泛关注,获得162个技术点赞和75条深度讨论,显示出业...
Read More近日,一个名为TTT-Discover的开源项目在GitHub上发布,其核心创新在于将强化学习(Reinforcement Learning)技术应用于大型语言模型(LLMs)的推理(Inference)阶段,而非传统的训练阶段。这一“测试时训练”(Test-...
Read MoreOpenAI技术团队成员Michael Bolin近期发表了一篇题为《Unrolling the Codex agent loop》的技术文章,深入剖析了基于Codex模型的智能体(Agent)在执行复杂任务时的内部循环机制。该文章揭示了AI智能体如何通过“感知...
Read MoreVercel实验室近日在GitHub上开源了名为“JSON Render”的创新库,旨在解决AI生成用户界面(UI)时的安全性与可控性难题。该库的核心思路是“AI → JSON → UI”,即让大型语言模型等AI系统根据自然语言提示(prompts)生成...
Read More英伟达今日正式发布了名为Alpamayo的开源AI模型家族,并配套推出了仿真工具与数据集,旨在加速下一代基于推理的安全型自动驾驶系统的开发进程。这一系列模型、数据集和仿真器主要针对自动驾驶领域中的“长尾挑战”——即...
Read More近日,一个名为HGMem的开源项目在GitHub上发布,该项目实现了一篇题为《Improving Multi-step RAG with Hypergraph-based Memory for Long-context Complex Relational Modeling》的论文。HGMem是一个基于超图的工作...
Read More