Stable Fast是HuggingFace扩散模型的推理引擎,通过它可以进行快速的Diffusers推理。该推理引擎在多种硬件上实现了出色的性能,包括CPU和GPU。此外,Stable Fast还兼容多个框架,包括PyTorch和TensorFlow。在GitHub...
Read More近日,llamafile发布了新的GitHub Repo,它是一种新的单文件分发工具,允许任何人使用单个文件分发和运行LLMs。LLMs可以在多个CPU微架构上运行,而不需要用户在每个平台上编译。这种工具可以节省开发者的时间和精力...
Read More微软已研发出自己的定制AI芯片Azure Maia AI以及Azure数据中心的基于ARM架构的CPU Azure Cobalt,旨在减少对Nvidia的依赖,为AI驱动的未来做好准备。这些芯片预计将于2024年推出。据悉,这些芯片将与微软的Azure AI...
Read More微软公司为训练大型语言模型建立了自己的定制人工智能芯片。它还开发了用于云工作负载的基于Arm的CPU。这两款芯片将于2024年推出。它们可能会减少行业对英伟达的依赖。微软已经在设计这些芯片的第二代版本。更多关于...
Read MoreDeepSparse是一种CPU推理运行时,它利用稀疏性加速神经网络推理。稀疏性是指神经网络中有很多权重为零的连接,DeepSparse利用这些零权重的连接,跳过不必要的计算,从而实现推理加速。DeepSparse是一个开源项目,可...
Read MoreNvidia在人工智能领域的领先地位远非稳固。它目前的优势主要是因为几乎没有人在运行大型机器学习应用程序,竞争对手还没有成熟,研究人员拥有购买力,以及关注于模型训练方面。但在不久的将来,使用CPU进行推理将会...
Read More这一系列的文章解释了在计算机上运行程序时发生的事情。它涵盖了多进程工作原理,系统调用是什么,计算机如何通过硬件中断管理内存,以及Linux如何加载可执行文件。计算机的结构其实非常简单,比人们预期的复杂度和...
Read Morevlite是一个仅有不到200行代码的向量数据库。它专为智能机器人、ChatGPT插件和其他AI应用而设计。vlite使用了苹果的Metal Performance Shaders与PyTorch结合,加速向量加载,并使用CPU多线程加速向量查询。
Read More近日,全新的DGX系统面世了!节点之间的NVLink连接创造了一个由256个Grace CPU(每个CPU拥有480GB的LPDDR5内存)和256个Hopper GPU(每个GPU拥有96GB的HBM3内存)组成的系统。每个GPU可以以900Gbps的速度直接访问任...
Read More新闻内容: Mojo是一种新的编程语言,专门为AI开发人员设计。以下是该语言的三个核心要点: - Mojo具有高度的灵活性和可扩展性,可以轻松应对不同类型和规模的项目。 - Mojo的语法简单明了,易于学习和使用。该语...
Read More