自己的数据上评估LLM的性能
talkingdev • 2023-06-29
1652144 views
语言模型的性能通常是在一个非常小的筛选数据集上进行评估的。这些数据的分布往往从生产环境中大大简化。使用自我监督评估,您可以使用自己的数据集来评估这些模型。您甚至可以使用从生产环境中流入的数据。
核心要点
- 使用自我监督评估可以使用自己的数据集来评估语言模型的性能
- 语言模型的性能通常是在一个非常小的筛选数据集上进行评估的
- 使用自我监督评估可以使用从生产环境中流入的数据来评估语言模型的性能