大型语言模型(LLM)在生产环境中的行为监控已成为AI工程化的重要挑战。为应对这一难题,业界引入了AI评估栈(AI Evaluation Stack),将测试分为确定性断言(如语法和路由完整性)与基于模型的评估(如语义质量)。...
Read More近日,一个名为Agents Observe的开源项目在GitHub上发布,为基于Claude Code的智能体开发提供了强大的实时可观测性解决方案。该项目本质上是一个实时仪表盘,能够通过钩子(hooks)捕获智能体运行过程中的每一个动作...
Read More微软近日在GitHub上开源了Agent Package Manager(APM),这是一个专为AI智能体设计的开源、社区驱动的依赖管理器。该工具旨在解决AI智能体开发中环境配置复杂、依赖项管理繁琐的痛点。开发者只需在一个YML文件中声...
Read More近日,一项关于AI代理成本优化的技术实践引发开发者社区关注。核心观点指出,当前采用模型上下文协议(MCP)的AI代理存在显著成本问题:它们在每个会话开始时,都会将完整的工具目录以详细的JSON Schema形式加载,这...
Read More在人工智能与自动化代理(Agent)技术快速发展的当下,如何安全、高效地为其提供代码执行环境成为关键挑战。沙箱(Sandbox)技术为此提供了解决方案,它是一个隔离的工作空间,允许代理在其中运行代码、安装软件包及...
Read MorePydantic团队近日在GitHub开源了Monty项目,这是一个用Rust语言编写的极简、安全的Python解释器,专为人工智能应用场景设计。该项目在Hacker News技术社区引发广泛关注,获得162个技术点赞和75条深度讨论,显示出业...
Read MoreCursor公司近日详细披露了其AI驱动的代码审查智能体Bugbot的系统性优化历程。Bugbot专为在代码拉取请求中识别逻辑错误、性能问题和安全漏洞而设计,其发展路径标志着AI辅助开发工具从依赖定性反馈到建立量化评估体系...
Read More近日,Bolt Foundry在GitHub上开源了名为Gambit的代理(Agent)框架,旨在解决当前大型语言模型(LLM)工作流开发中普遍存在的痛点。该框架通过引入“牌组”(decks)这一核心概念,将工作流分解为小型、强类型的可组...
Read More