模型基准的相关内容 - 漫话开发者

2024-05-07 talkingdev

Vibe-Eval开源：评估多模态聊天模型基准测试

Vibe-Eval是一个新推出的基准测试，专为测试多模态聊天模型而设计。它包含了269项视觉理解提示，其中包括100项特别具有挑战性的提示。这些视觉理解提示的设计，力求能够全面、深入地评估和测试多模态聊天模型的性能...

2023-06-22 talkingdev

本仓库介绍了OpenSTL，这是一个基于过去帧预测未来模式的模型基准。它对不同数据集上的方法进行分类和评估。