漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-04-20 talkingdev

独家揭秘:Anthropic发布Claude Opus 4.7,系统提示词更新细节曝光

在人工智能领域,系统提示词(System Prompt)是塑造大型语言模型行为与输出的核心指令,通常被各大AI实验室视为高度机密。然而,Anthropic公司却独树一帜,成为唯一一家持续公开其面向用户的聊天系统(如Claude)完...

Read More
2026-04-09 talkingdev

开源|Claw-Eval:首个经人类验证的LLM智能体基准测试集,覆盖139项真实任务

近日,GitHub上开源了一个名为Claw-Eval的评估框架,专门用于评估大型语言模型作为智能体的能力。该框架的核心价值在于其构建了一个全面且经过人类验证的基准测试集,涵盖了139项多样化的真实世界任务。与以往许多依...

Read More
2026-04-09 talkingdev

Meta发布Muse Spark:迈向个人超级智能的多模态推理与工具调用新模型

Meta公司近日正式推出了名为Muse Spark的新型多模态推理模型,标志着其在追求个人超级智能(Personal Superintelligence)的道路上迈出了关键一步。该模型集成了三大前沿技术能力:工具使用、视觉思维链以及多智能体...

Read More
2026-02-28 talkingdev

Anthropic就美国战争部长争议言论发表官方声明,引发AI伦理与军事应用大讨论

人工智能安全领域的领先公司Anthropic近日针对美国战争部长皮特·赫格塞斯的公开言论发布了正式声明,这一事件在科技界和公共政策领域引发了广泛关注。该声明不仅代表了Anthropic对人工智能技术军事化应用的官方立场...

Read More
2026-02-11 talkingdev

AI编程助手新突破:Showboat与Rodney工具发布,让智能体自主演示代码成果

在AI辅助编程领域,一个长期存在的挑战是如何让代码生成智能体不仅能够构建软件,还能有效地向人类监督者演示和验证其工作成果。近日,开发者Simon Willison推出了两款创新工具——Showboat和Rodney,旨在解决这一核心...

Read More
2026-01-14 talkingdev

开源|CaRR:为深度搜索智能体引入引文感知的规则奖励,提升强化学习鲁棒性

清华大学知识工程实验室(THUDM)在GitHub开源了项目CaRR,其对应论文《Chaining the Evidence: Robust Reinforcement Learning for Deep Search Agents with Citation-Aware Rubric Rewards》提出了一种创新方法,...

Read More
2026-01-13 talkingdev

Vercel提出AI智能体新架构:基于文件系统与Bash的简洁高效方案

近日,Vercel在其技术博客中分享了一种构建AI智能体的创新架构思路,该方案摒弃了复杂的专用框架,转而采用标准的文件系统和Bash工具作为核心基础设施。文章指出,由于大型语言模型(LLM)天生具备对代码和Unix命令...

Read More
2025-12-22 talkingdev

开源Bloom工具:自动化评估AI模型行为,提升安全性与可解释性

Anthropic近日开源了名为Bloom的工具,这是一个专门用于对AI模型进行自动化行为评估的开源解决方案。该工具通过创建特定场景并量化不同模型中的行为发生率,能够系统性地评估如自我偏好偏见、蓄意破坏等具体行为模式...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page