Meta在这篇博客文章中概述了用于训练Llama 3的基础设施。它介绍了存储、网络、Pytorch、NCCL等改进。这将为Meta今年其余时间上线的H100s打下基础。
Read More旧金山计算公司(SF Compute)现在推出了全球最便宜的H100训练集群,并提供灵活的短期租赁选项,针对需要进行AI模型训练的客户,而无需长期承诺。其第一个集群Angel Island已经上线,另一个Bay Bridge即将推出。SF C...
Read More近期,人工智能研究的重点从单纯的准确性和广度转向了效率和深度。英伟达的H100销售和AI能源的不断增长凸显了该行业的规模。投资要求盈利,将研究重点转向了像Phi 2这样更小、更高效的模型,并强调从模型架构到部署...
Read MoreTiny Narrations是一个基于最受欢迎的Tiny Stories数据集的文本转语音版本。它使用SF Compute H100集群上的XTTS2。这个系统可以将短小精悍的故事转化为音频文件,方便用户在不同场景下收听。这个系统的优点是使用了...
Read MoreNvidia正式发布了HGX H200新款AI芯片,相较于其前代H100,HGX H200在内存带宽和容量上有了极大的提升。据悉,Nvidia正在与合作伙伴合作,尚不确定其可用性,并计划在2024年发布。
Read MoreNvidia推出了HGX H200 Tensor Core GPU,这是去年发布的H100 GPU的后续产品。H200采用Hopper架构来加速AI应用。它可能会导致更强大的AI模型和现有模型更快的响应时间。计算能力的缺乏一直是AI进步的主要瓶颈。亚马逊...
Read MoreMLPerf是一个标准的机器学习性能基准测试,可以准确显示平台和模型在实际环境中的表现。最新的MLPerf Training v3.1展示了H100在绝对性能方面的惊人表现,但在比较每花费一美元的时间性能时,Intel仍然占据着优势。
Read More谷歌作为少数几个能够与Nvidia匹敌的大型组织之一,其硬件在过去一直面临挑战,尤其是其对PyTorch的支持相对较弱。然而,现在,随着更快的芯片和更好的软件支持的出现,谷歌的这一产品似乎变得非常吸引人。TPU v5和H...
Read More英伟达宣布推出GH200,一款专为运行人工智能模型设计的新芯片。它与H100使用相同的GPU,但搭配了141GB内存和一个72核的ARM中央处理器。额外的内存将允许更大的人工智能模型在单个系统上运行,并显著降低推理成本。GH...
Read More人工智能产业的发展正受到GPU供应不足的制约。这种短缺导致产品推出和模型训练等方面受到各种限制。一旦供需平衡,事情就会加速发展。本文将探讨导致供需矛盾的原因,持续时间以及解决方法。
Read More