推理加速的相关内容 - 漫话开发者

2025-06-30 talkingdev

PyTorch与vLLM深化集成，提升大语言模型推理效率

PyTorch与vLLM近日宣布深化技术整合，新增支持量化、注意力机制定制及异构硬件加速等关键功能。这一合作标志着两大开源框架在优化大语言模型（LLM）推理性能方面取得重要突破：量化技术可降低模型计算资源消耗达4-8...

2025-06-20 talkingdev

近日，一篇关于将大语言模型（LLMs）编译为单一MegaKernel以实现低延迟推理的技术文章引发广泛讨论。该技术通过优化编译器设计，将传统需要多个内核调用的LLM推理过程整合为高度融合的单一内核，显著减少了内核启动...

2025-06-18 talkingdev

KV（键值）缓存是大型语言模型（LLM）推理过程中的关键技术，通过存储注意力计算的中间结果显著提升生成效率。以逐词生成"Time flies fast"为例，传统方式需在每个步骤重复计算"Time"和"flies"的注意力权重，而采用K...

2025-06-16 talkingdev

PyTorch官方博客最新发布的ParetoQ训练算法在低比特量化领域取得重大突破。该技术首次实现了二元（1-bit）、三元（1.58-bit）和2至4位量化的统一框架，并在所有量化级别上均达到当前最优性能。这一突破性进展尤其适...

2025-04-16 talkingdev

NVIDIA在GitHub开源项目TensorRT-LLM中发布了名为Auto Deploy的创新工具，该技术实现了将PyTorch和Hugging Face模型转化为高效可部署格式的重大突破。通过TensorRT-LLM的优化编译器，模型推理速度可提升数倍，特别适...

2025-04-16 talkingdev

OpenAI近日将其内部研发的高性能计算核心——FP4（4-bit浮点）与MoE（混合专家）系统的关键算子通过GitHub PR开源至Triton语言项目。这一举动标志着AI基础设施领域的重要进展：FP4作为新兴的低精度计算格式可显著提升...

2024-05-09 talkingdev

QoQ，一种新型量化算法，通过使用4位权重、8位激活和4位KV缓存，加速了大型语言模型推理。量化是一种广泛应用于深度学习中的技术，它能够减少模型的存储需求和计算复杂性。在这种情况下，QoQ算法采用了较低精度的数...

2024-05-09 talkingdev

Consistency LLM是一种新的自然语言处理模型，可以将其转换为并行解码器，从而将推理时间缩短至3.5倍。LLM模型是一种具有良好性能的模型，但推理速度较慢。该研究团队将LLM转换为并行解码器，使用了一种名为一致性训...