漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-01-08 talkingdev

AI评测平台LMArena被指为“行业毒瘤”:奖励形式而非事实,或致模型集体“幻觉”

近期,AI评测领域引发了一场关于评估标准与行业健康发展的激烈讨论。知名在线AI模型排行榜LMArena被批评为一个“破碎的系统”,其核心问题在于评估机制存在严重缺陷。该平台通过用户快速投票进行排名,但用户往往仅根...

Read More