"基准测试"的相关内容 - 漫话开发者

2024-02-01 talkingdev

谎言、诅咒和基准测试

基准测试是非常有用的工具，但由于其狭窄的范围、过度拟合、污染、可重复性问题和缺乏范围，它们并不是真实世界实用性的最佳指标。

2024-01-20 talkingdev

TACO是一个新的基准，用于评估系统生成代码的能力。它比现有数据集大得多，包含更具挑战性的问题。在简单的问题上，GPT-4的正确率达到30％，而在最难的问题子集上，它仅能达到2％。

2023-11-22 talkingdev

一种深入研究训练语言模型所使用的数据的方法。研究结果表明，许多闭源模型可能没有在流行的基准测试上进行训练。

2023-11-16 talkingdev

当新的模型拥有惊人的性能时，人们往往会质疑它们是否真的是在验证数据或基准测试上得到了训练。去污是从输入中删除此类测试数据的过程。LMSYS团队发现，如果你重新表述测试数据，使其通过去污，但仍包含关于基准测...

2023-09-22 talkingdev

这项研究介绍了AV-SUPERB，这是一个新的基准测试，用于测试训练模型在各种任务中对声音和视觉数据的理解程度。AV-SUPERB的目标是推动音频和视觉共同理解的发展，并为未来的研究提供一个统一的平台。这项研究突出了模...

2023-09-13 talkingdev

最近，MLCommons推出了一项新的基准测试，用于评估顶级硬件运行AI模型的速度。在这次的评估中，Nvidia和Intel分别获得了第一和第二的位置。这项测试的发布，不仅为科技界提供了一个公平、公正的评估标准，也为消费者...

2023-08-25 talkingdev

自动视频生成作为一个新兴的研究领域，已经引起了广泛的关注。其中，故事延续、故事混搭等任务的衡量标准十分复杂。谷歌最新推出的视频生成基准测试工具，希望能帮助这一领域取得进一步的进展。通过这个基准测试，研...

2023-06-14 talkingdev

研究人员提出了竞争性基准测试系统"AlgoPerf"，旨在公平评估各种深度学习算法的训练效果，并为未来的改进奠定基础。这一研究解决了比较和改进深度学习训练算法的挑战，这些算法是加速数据处理、节省资源和创建准确模...