微信扫码实时跟踪AI前沿
最近,一篇名为“Activation-aware Weight Quantization (AWQ)”的论文在GitHub上开源。这篇论文提出了一种新的方法,可以更高效地压缩大型语言模型(LLMs),克服了高硬件要求和慢速令牌生成的问题。AWQ可以选择性地...