近日,一个名为ENACT的新型基准测试在人工智能与认知科学交叉领域引发关注。该基准旨在通过第一人称视角的世界建模来系统评估智能体的具身认知能力。具身认知理论认为,智能体的认知过程与其物理身体及与环境的实时...
Read More人工智能研究机构Cline近日发布开源项目cline-bench,旨在构建源自真实开源开发场景的高保真度基准测试与强化学习环境。当前AI模型在代码生成领域虽取得显著进展,但业界始终缺乏能够准确反映实际工程约束的标准化评...
Read More人工智能评估机构Artificial Analysis最新推出AA-Omniscience基准测试体系,该体系针对40余个专业领域的大语言模型知识储备与幻觉现象进行系统性评估。测试结果显示,在关键指标上仅有三个模型能够保持正确回答率高...
Read More近日,开发者通过Google AI Studio的A/B测试功能,意外捕捉到尚未正式发布的Gemini 3.0模型踪迹。该测试以SVG矢量图形生成作为核心评估标准,通过对比不同版本模型的输出质量,间接验证了新一代模型在复杂结构化数据...
Read MoreOpenAI最新发布的GPT-5 API展现出突破性特性——该模型成为首个具备实时时间感知能力的大型语言模型。这一技术演进引发学术界高度关注,因为当模型知晓当前日期时,能够识别出自身正处于测试环境中。研究表明,AI模型...
Read More谷歌开发者博客正式宣布Genkit Go 1.0开源AI开发框架达到生产就绪状态,这是专为Go语言打造的企业级AI应用开发解决方案。该框架支持快速构建、测试和部署生成式AI应用,集成了Firebase、Google Cloud等云服务生态。...
Read More这篇技术长文系统性地剖析了大语言模型(LLM)的后训练完整生命周期,涵盖了监督微调(SFT)、奖励建模(Reward Modeling)以及强化学习方法(如RLHF)三大核心阶段。作者不仅详细阐述了如何通过人类反馈的强化学习...
Read MoreOpenAI与Anthropic近日达成一项突破性合作,双方开放内部API接口进行交叉安全测试,旨在通过第三方视角发现彼此模型评估中的盲点。这一举措标志着AI行业从封闭式自查向开放式协作安全验证的重要转变。通过技术互鉴,...
Read More