微信扫码实时跟踪AI前沿
近代LML中常用的多头注意力模块的不同实现之间的速度存在近10倍的差异。本笔记本展示了其中几个实现,并对其性能进行了基准测试。
MI300X是AMD的旗舰人工智能加速器。随着ROCm 6的推出,它现在在推理工作负载方面接近于NVIDIA的性能。这对社区来说是个好消息,因为它为新兴的人工智能公司打开了使用替代芯片的可能性。
MLPerf是一个标准的机器学习性能基准测试,可以准确显示平台和模型在实际环境中的表现。最新的MLPerf Training v3.1展示了H100在绝对性能方面的惊人表现,但在比较每花费一美元的时间性能时,Intel仍然占据着优势。