模型上下文协议(MCP)框架迎来重大技术突破,通过代码执行环境实现了AI代理效率的跨越式提升。传统方案需要预加载数百个工具定义并通过上下文窗口传递中间结果,导致计算资源浪费和成本攀升。新技术允许AI代理将MCP...
Read More人工智能评估机构Artificial Analysis最新推出AA-Omniscience基准测试体系,该体系针对40余个专业领域的大语言模型知识储备与幻觉现象进行系统性评估。测试结果显示,在关键指标上仅有三个模型能够保持正确回答率高...
Read MoreAnthropic公司近日在其Claude开发者平台正式推出结构化输出功能的公开测试版,该功能现已在Sonnet 4.5和Opus 4.1模型上开放使用。这项技术突破通过确保API响应严格遵循开发者定义的JSON模式与工具定义,从根本上解决...
Read More人工智能公司Anthropic近日披露了全球首例由AI全程策划的网络间谍活动,标志着网络安全攻防正式进入AI对抗时代。该攻击活动展现出高度智能化特征:通过生成式AI伪造身份凭证、动态调整渗透策略,并利用强化学习绕过...
Read More中国人工智能实验室月之暗面(Moonshot AI)近日开源其革命性推理模型Kimi K2,在关键基准测试中展现出与国际顶尖模型的竞争实力。该模型在衡量综合认知能力的‘人类终极考试’(Humanity's Last Exam)中取得44.9%的...
Read More最新技术研究显示,通过模型上下文协议(MCP)实现的代码执行功能正在显著提升AI代理的运行效率。这项突破性技术使AI代理能够在连接多个MCP服务器时,大幅减少令牌消耗,最高可降低98.7%的上下文开销。传统方法中,...
Read MoreAnthropic最新研究通过‘概念注入’实验,首次系统验证了大语言模型的内省能力。研究显示,特别是Claude Opus 4和4.1版本模型能够检测并识别被注入的概念,并能通过参照自身‘意图’来识别意外输出。实验证明这些模型具...
Read More在Universe 2025大会上,GitHub推出了颠覆性的Agent HQ平台,将开发者工作流演进为支持多智能体协同的开放生态系统。该平台通过名为‘任务控制中心’的统一指挥系统,实现了对Anthropic、OpenAI、Google、Cognition、x...
Read More