LiveCodeBench：对大型编程语言模型进行全面无污染的评估

talkingdev • 2024-03-15

903426 views

评估训练编程语言模型的性能是一个具有挑战性的任务。大多数人使用OpenAI的HumanEval。然而，一些开放的模型似乎会过度拟合到这个基准。LiveCodeBench是一种测量编程性能的方法，同时减轻污染问题。