加州大学伯克利分校研究团队开发的进化编码智能体OpenEvolve,成功将大型语言模型转化为自主代码优化器,在混合专家模型负载平衡任务中取得重大突破。该系统通过模拟自然选择机制,使LLM能够自主探索算法空间,最终...
Read More近日,一篇关于将大语言模型(LLMs)编译为单一MegaKernel以实现低延迟推理的技术文章引发广泛讨论。该技术通过优化编译器设计,将传统需要多个内核调用的LLM推理过程整合为高度融合的单一内核,显著减少了内核启动...
Read MoreQoQ,一种新型量化算法,通过使用4位权重、8位激活和4位KV缓存,加速了大型语言模型推理。量化是一种广泛应用于深度学习中的技术,它能够减少模型的存储需求和计算复杂性。在这种情况下,QoQ算法采用了较低精度的数...
Read More