研究人员开发了一种新的文本到3D生成模型的评估指标,解决了当前单一标准指标的局限性。这种先进的方法使用GPT-4V来创建提示并比较3D资产。它与人类偏好密切相关,并通过适应各种用户定义的标准来提供多样性。
Read MoreDeepEval是一款全能的LLM应用评估框架,可让用户轻松识别和迭代不令人满意的LLM输出。它目前提供了14+种评估指标,如幻觉、摘要、G-Eval、RAGAS等,供用户以Pytest样式或组件化方式评估整个数据集。
Read MoreParea AI是一个开发者工具包,专门用于调试和监控LLM应用。用户可以以版本化的方式实验提示和模型配置。在较大规模上,使用自定义的Python评估指标来评估提示。通过API监控LLM应用,并在仪表板上查看分析数据。Parea...
Read More