漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-10-25 talkingdev

DeepSparse:利用稀疏性加速神经网络推理的CPU推理运行时

DeepSparse是一种CPU推理运行时,它利用稀疏性加速神经网络推理。稀疏性是指神经网络中有很多权重为零的连接,DeepSparse利用这些零权重的连接,跳过不必要的计算,从而实现推理加速。DeepSparse是一个开源项目,可...

Read More
2023-06-19 talkingdev

百万上下文窗口背后的秘密武器

本文讨论了几种加速大型语言模型(LLM)训练和推理的技术,以使用高达100K个输入令牌的大上下文窗口。这些技术包括:ALiBi位置嵌入,稀疏注意力,闪电注意力,多查询注意力,条件计算以及使用80GB的A100 GPU。

Read More
  1. Prev Page