大模型推理的相关内容 - 漫话开发者

2026-02-25 talkingdev

推理速度新标杆：Inception Labs发布Mercury 2，号称全球最快推理大语言模型

人工智能初创公司Inception Labs近日正式发布了其新一代大语言模型Mercury 2，并宣称该模型是“全球最快的推理语言模型”。其核心目标是让生产环境中的AI应用响应达到“瞬时”体验。Mercury 2的技术亮点在于其采用了创新...

2026-02-23 talkingdev

近日，在GitHub上开源名为“ntransformer”的高效大语言模型推理引擎项目，其核心创新在于探索并实现了通过NVMe存储设备直接与GPU通信，绕过CPU和系统内存的传统数据路径，从而在消费级显卡RTX 3090上成功运行了参数量...

2026-02-13 talkingdev

近日，多家领先的AI推理服务提供商，包括Baseten、DeepInfra、Fireworks AI和Together AI，宣布通过在其服务中部署基于NVIDIA Blackwell架构的GPU并运行开源模型，成功将每次推理的令牌成本大幅降低了高达10倍。这一...

2026-01-29 talkingdev

近日，备受开发者关注的本地大语言模型运行平台LM Studio发布了其0.4.0版本更新。本次更新带来了多项关键性功能升级，核心聚焦于提升生产环境下的部署能力与推理性能。最引人注目的新特性是支持服务器部署模式，这使...

2026-01-16 talkingdev

近日，由D2I-ai团队在GitHub上开源的DASD（序列蒸馏）项目，提出了一种创新的模型蒸馏流程，旨在训练出更紧凑、高效的模型以应对复杂的推理任务。该流程整合了温度调度学习与发散感知采样等前沿技术，通过精细化的知...

2025-10-20 talkingdev

阿里云最新推出的Aegaeon GPU池化技术系统在AI算力领域实现重大突破，通过创新的资源调度机制将大模型推理所需的英伟达GPU数量从1192片缩减至213片，降幅达82%。该系统目前已在阿里云模型市场完成beta测试，其核心技...

2025-08-31 talkingdev

ACM SIGPLAN博客最新发布的观点文章指出，当前AI模型运行环境存在严重碎片化问题，研究者提出应为AI模型构建类似Java虚拟机的标准化运行时环境。该方案能解决模型跨平台部署、资源管理和版本兼容等核心痛点，通过抽...

2025-08-20 talkingdev

Lemonade是一个专为现代计算硬件优化的开源推理服务器，致力于帮助开发者和研究者在本地高效运行大型语言模型。该项目通过集成最先进的推理引擎，可自动适配不同厂商的NPU（神经网络处理器）和GPU硬件平台，实现计算...