漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-09-26 talkingdev

OpenAI推出GDPval:衡量AI模型在44个职业中真实任务表现的新基准

OpenAI近日发布了名为GDPval的创新评估基准,该基准专注于测试人工智能模型在44种不同职业领域内具有经济价值的真实任务上的性能。这一评估体系突破了传统学术基准的局限,通过模拟律师文档分析、会计师报表处理、客...

Read More