当AI智能体协助用户处理横跨数百条消息的复杂任务时,一旦其上下文窗口耗尽,是能够继续高效工作,还是被迫从头开始?这直接决定了智能体的实用性与可靠性。Factory.ai的最新研究深入探讨了这一问题,并提出了一套评...
Read MoreAnthropic近日开源了名为Bloom的工具,这是一个专门用于对AI模型进行自动化行为评估的开源解决方案。该工具通过创建特定场景并量化不同模型中的行为发生率,能够系统性地评估如自我偏好偏见、蓄意破坏等具体行为模式...
Read More人工智能模型评估机构METR发布的最新数据显示,Anthropic公司推出的Claude Opus 4.5大型语言模型在任务处理时效性上取得了显著突破。根据METR的评估框架,Claude Opus 4.5的“50%任务完成时间视界”约为4小时49分钟,...
Read More纽约州州长凯西·霍楚于周五正式签署了《负责任人工智能安全法案》(RAISE Act),使之成为法律。此举标志着纽约州成为美国最新一个针对最先进人工智能模型制定广泛安全规则的州。值得注意的是,该法案在最终签署前,...
Read More据路透社援引知情人士消息,专注于人工智能训练领域的芯片制造商Cerebras Systems正计划重启其首次公开募股进程。该公司预计最快将于下周向美国证券交易委员会提交IPO申请,目标是在2026年第二季度完成上市。此举标...
Read More在AI驱动编程工具竞争日益激烈的背景下,一项重要的行业整合事件引发了开发者社区的广泛关注。专注于代码审查与协作的初创公司Graphite近日正式宣布,将加入由知名AI代码助手Cursor构建的生态系统。Cursor凭借其深度...
Read More知名AI研究员Andrej Karpathy近期发布了其对2025年大语言模型(LLM)领域范式变革的年度回顾文章,引发了技术社区的广泛关注与讨论。该文章深度剖析了过去一年中LLM领域在架构、训练范式、应用部署及多模态融合等方...
Read MoreOpenAI近日正式推出了其最新的智能编码模型GPT-5.2-Codex,该模型被定位为面向专业软件工程和防御性网络安全领域的最先进的“智能体”编码模型。此次发布标志着AI在代码生成与理解能力上的又一次重大飞跃。GPT-5.2-Cod...
Read More