LiveCodeBench:对大型编程语言模型进行全面无污染的评估
talkingdev • 2024-03-15
903426 views
评估训练编程语言模型的性能是一个具有挑战性的任务。大多数人使用OpenAI的HumanEval。然而,一些开放的模型似乎会过度拟合到这个基准。LiveCodeBench是一种测量编程性能的方法,同时减轻污染问题。
核心要点
- LiveCodeBench是一种评估编程语言模型性能的新方法。
- 此方法可以减轻污染问题,实现全面无污染的评估。
- 大多数人使用OpenAI的HumanEval,但一些模型似乎会过度拟合到这个基准。