模型推理优化的相关内容 - 漫话开发者

2026-02-23 talkingdev

开源|突破显存限制：开发者实现单张RTX 3090运行Llama 3.1 70B，NVMe直连GPU绕过CPU

近日，在GitHub上开源名为“ntransformer”的高效大语言模型推理引擎项目，其核心创新在于探索并实现了通过NVMe存储设备直接与GPU通信，绕过CPU和系统内存的传统数据路径，从而在消费级显卡RTX 3090上成功运行了参数量...

2025-12-22 talkingdev

人工智能领域知名专家安德烈·卡帕西（Andrej Karpathy）近期发布了其对2025年大语言模型（LLM）发展的年度回顾，系统性地梳理了行业在过去一年中经历的深刻范式转变。报告指出，技术演进的核心驱动力已从单纯追求模...

2025-12-01 talkingdev

在大型语言模型推理优化领域，Prompt缓存技术正成为提升服务效率、降低计算成本的关键前沿技术。本文深入解析了Prompt缓存的核心工作原理，特别聚焦于vLLM框架中创新的Paged Attention机制及其实现的自动前缀缓存。...

2025-06-26 talkingdev

近期GitHub上开源的ConciseHint项目提出了一种创新的大语言模型推理优化技术。该技术通过在生成过程中注入学习或手工设计的简洁提示，能够在保持模型性能的前提下显著提升推理过程的简洁性。这一突破性方法解决了当...

2025-06-16 talkingdev

人工智能领域迎来重要进展，Featherless AI近日正式成为Hugging Face平台的推理服务提供商。这一合作将为开发者带来革命性的无服务器（serverless）模型访问体验，用户无需管理底层基础设施即可直接调用包括Meta、Qw...