当AI智能体协助用户处理横跨数百条消息的复杂任务时,一旦其上下文窗口耗尽,是能够继续高效工作,还是被迫从头开始?这直接决定了智能体的实用性与可靠性。Factory.ai的最新研究深入探讨了这一问题,并提出了一套评...
Read MoreAnthropic近日开源了名为Bloom的工具,这是一个专门用于对AI模型进行自动化行为评估的开源解决方案。该工具通过创建特定场景并量化不同模型中的行为发生率,能够系统性地评估如自我偏好偏见、蓄意破坏等具体行为模式...
Read More近日,一个名为Next-AI-Draw.io的开源项目在GitHub上发布,该项目将AI能力深度集成至流行的图表绘制工具draw.io中,构建了一个基于Next.js的Web应用程序。这一创新工具允许用户通过自然语言指令直接创建、修改和增强...
Read More中国领先的AI芯片设计公司摩尔线程(Moore Threads)在完成其备受瞩目的首次公开募股(IPO)仅数周后,于近期正式发布了其新一代人工智能芯片。该芯片系列旨在降低人工智能开发者对特定硬件生态的依赖,为国内AI算力...
Read More人工智能模型评估机构METR发布的最新数据显示,Anthropic公司推出的Claude Opus 4.5大型语言模型在任务处理时效性上取得了显著突破。根据METR的评估框架,Claude Opus 4.5的“50%任务完成时间视界”约为4小时49分钟,...
Read More近日,一个名为Jmail的开源项目在技术社区Hacker News上引发了广泛关注与讨论。该项目由开发者Luke和Riley Walz牵头,在2025年11月美国众议院监督委员会公布所谓的“爱泼斯坦文件”数据后,他们与众多合作者连夜协作,...
Read More人工智能公司Anthropic近日正式发布了“Claude in Chrome”浏览器扩展,标志着其旗舰AI助手Claude进一步向日常生产力工具渗透。该扩展允许用户直接在Chrome浏览器中调用Claude的对话与推理能力,实现实时问答、网页内...
Read More纽约州州长凯西·霍楚于周五正式签署了《负责任人工智能安全法案》(RAISE Act),使之成为法律。此举标志着纽约州成为美国最新一个针对最先进人工智能模型制定广泛安全规则的州。值得注意的是,该法案在最终签署前,...
Read More