标准化评估的相关内容 - 漫话开发者

2025-12-03 talkingdev

Perplexity推出BrowseSafe：为AI浏览器智能体构建实时防护盾，抵御提示注入攻击

人工智能研究公司Perplexity近日开源了其最新研究成果“BrowseSafe”，这是一个专门为保护AI浏览器智能体（AI Browser Agents）而设计的实时内容检测模型与基准测试套件。在开放世界的网页环境中，AI智能体在执行网页...

2025-11-21 talkingdev

人工智能研究机构Cline近日发布开源项目cline-bench，旨在构建源自真实开源开发场景的高保真度基准测试与强化学习环境。当前AI模型在代码生成领域虽取得显著进展，但业界始终缺乏能够准确反映实际工程约束的标准化评...

2025-11-04 talkingdev

谷歌Angular团队近日正式开源Web Codegen Scorer工具，专门用于评估大型语言模型生成的Web代码质量。该工具通过建立标准化的代码质量评估体系，支持跨模型、跨框架的横向对比分析，为AI代码生成技术的优化提供量化依...

2025-10-23 talkingdev

近日，研究团队推出开创性基准平台World-in-World，这是首个专门针对闭环交互环境设计的开放评测框架。该平台突破传统世界模型仅关注视觉保真度的局限，将评估核心转向具身智能体在动态环境中的任务完成能力。通过构...

2025-09-10 talkingdev

随着AI编程工具在个人开发者中的普及率突破百万级，企业级应用却面临严峻的合规鸿沟。最新行业报告指出，多数演示效果惊艳的AI编码工具在实际企业环境中暴露出四大核心缺陷：单点登录(SSO)集成缺失、代码治理能力不...

2025-08-22 talkingdev

卡内基梅隆大学研究人员推出PACT（Pairwise Auction Conversation Testbed）对话议价基准测试平台，这是首个专门针对语言模型讨价还价能力构建的大规模评估体系。该平台包含超过5,000场对话博弈实验，每场包含20轮完...

2025-08-17 talkingdev

近日，Artificial Analysis发布了一项针对OpenAI开源大语言模型gpt-oss-120b的性能基准测试报告。该测试聚焦于同一模型在不同托管服务提供商环境中的表现差异，结果显示各平台间的性能存在明显波动。作为当前参数规...

2025-06-12 talkingdev

Meta近日正式推出V-JEPA 2视觉世界模型，该技术突破性实现了AI代理对物理环境的动态推理能力。作为Yann LeCun团队世界模型研究的最新成果，V-JEPA 2通过自监督学习架构，使AI系统能够基于视频输入预测物理交互结果。...