在人工智能领域,系统提示词(System Prompt)是塑造大型语言模型行为与输出的核心指令,通常被各大AI实验室视为高度机密。然而,Anthropic公司却独树一帜,成为唯一一家持续公开其面向用户的聊天系统(如Claude)完...
Read More近日,GitHub上开源了一个名为Claw-Eval的评估框架,专门用于评估大型语言模型作为智能体的能力。该框架的核心价值在于其构建了一个全面且经过人类验证的基准测试集,涵盖了139项多样化的真实世界任务。与以往许多依...
Read MoreMeta公司近日正式推出了名为Muse Spark的新型多模态推理模型,标志着其在追求个人超级智能(Personal Superintelligence)的道路上迈出了关键一步。该模型集成了三大前沿技术能力:工具使用、视觉思维链以及多智能体...
Read More人工智能安全领域的领先公司Anthropic近日针对美国战争部长皮特·赫格塞斯的公开言论发布了正式声明,这一事件在科技界和公共政策领域引发了广泛关注。该声明不仅代表了Anthropic对人工智能技术军事化应用的官方立场...
Read More在AI辅助编程领域,一个长期存在的挑战是如何让代码生成智能体不仅能够构建软件,还能有效地向人类监督者演示和验证其工作成果。近日,开发者Simon Willison推出了两款创新工具——Showboat和Rodney,旨在解决这一核心...
Read More清华大学知识工程实验室(THUDM)在GitHub开源了项目CaRR,其对应论文《Chaining the Evidence: Robust Reinforcement Learning for Deep Search Agents with Citation-Aware Rubric Rewards》提出了一种创新方法,...
Read More近日,Vercel在其技术博客中分享了一种构建AI智能体的创新架构思路,该方案摒弃了复杂的专用框架,转而采用标准的文件系统和Bash工具作为核心基础设施。文章指出,由于大型语言模型(LLM)天生具备对代码和Unix命令...
Read MoreAnthropic近日开源了名为Bloom的工具,这是一个专门用于对AI模型进行自动化行为评估的开源解决方案。该工具通过创建特定场景并量化不同模型中的行为发生率,能够系统性地评估如自我偏好偏见、蓄意破坏等具体行为模式...
Read More