大型语言模型(LLM)在生产环境中的行为监控已成为AI工程化的重要挑战。为应对这一难题,业界引入了AI评估栈(AI Evaluation Stack),将测试分为确定性断言(如语法和路由完整性)与基于模型的评估(如语义质量)。...
Read MoreBroccoli 是一个新颖的开源工具,旨在通过AI代理(包括Claude和Codex)自动化软件开发中的工程工作流。其核心功能是可以直接将Linear项目管理工具中的工单(Tickets)自动转化为GitHub上的拉取请求(Pull Requests)...
Read More近日,GitHub上开源了一个名为GoModel的高性能AI网关项目,该项目使用Go语言编写,旨在为开发者提供一个统一的、兼容OpenAI API标准的接口,以无缝对接包括OpenAI、Anthropic(Claude)、Google Gemini、Groq、xAI(...
Read More近日,一项名为CrabTrap的开源项目引起了AI应用安全领域的关注。它是一个HTTP/HTTPS代理,核心功能是拦截AI代理发出的每一个网络请求,并利用“LLM即法官”的技术范式,实时判断该请求是否符合为该代理预设的流量许可...
Read More当前,大型语言模型(LLM)驱动的智能体在执行复杂任务时面临根本性挑战:由于缺乏结构化记忆,其无状态的调用方式会导致上下文丢失、多步骤任务中断以及错误重复发生。传统解决方案如向量搜索,虽能处理简单查询,...
Read More近日,GitHub上开源了一个名为Claw-Eval的评估框架,专门用于评估大型语言模型作为智能体的能力。该框架的核心价值在于其构建了一个全面且经过人类验证的基准测试集,涵盖了139项多样化的真实世界任务。与以往许多依...
Read More开发者matthartman近日在GitHub上开源了名为Ghost Pepper的macOS应用,它是一款完全在本地运行的“长按说话”语音转文字工具。该工具的核心技术栈结合了OpenAI开源的WhisperKit语音识别模型与本地运行的大型语言模型(...
Read More近日,GitHub上出现了一个名为Caveman的创新项目,它作为Claude Code技能和Codex插件,旨在通过一种极简的“原始人”沟通风格,显著提升大型语言模型(LLM)代理间的交互效率。该技术的核心在于,它能够智能地剥离对话...
Read More