LLM Decontaminaor:新型模型欺骗性能的方法
talkingdev • 2023-11-16
1249198 views
当新的模型拥有惊人的性能时,人们往往会质疑它们是否真的是在验证数据或基准测试上得到了训练。去污是从输入中删除此类测试数据的过程。LMSYS团队发现,如果你重新表述测试数据,使其通过去污,但仍包含关于基准测试的信息,你就可以伪造惊人的性能。
talkingdev • 2023-11-16
1249198 views
当新的模型拥有惊人的性能时,人们往往会质疑它们是否真的是在验证数据或基准测试上得到了训练。去污是从输入中删除此类测试数据的过程。LMSYS团队发现,如果你重新表述测试数据,使其通过去污,但仍包含关于基准测试的信息,你就可以伪造惊人的性能。