DeepEval，开源LLM应用评估框架

talkingdev • 2023-12-19

1153683 views

DeepEval是一款全能的LLM应用评估框架，可让用户轻松识别和迭代不令人满意的LLM输出。它目前提供了14+种评估指标，如幻觉、摘要、G-Eval、RAGAS等，供用户以Pytest样式或组件化方式评估整个数据集。