大模型推理的相关内容 - 漫话开发者

2026-05-12 talkingdev

开源|AutoTTS：无需梯度更新，用编码Agent自动探索测试时扩展策略

在AI大模型推理成本与日俱增的背景下，测试时扩展（Test-Time Scaling）正成为提升模型性能的前沿方向之一。近日，来自开源社区的项目AutoTTS提出了一种全新的自动化策略发现框架，旨在通过编码Agent在回放环境中迭...

2026-04-23 talkingdev

随着人工智能向智能体（Agent）方向演进，传统的大模型推理基准测试正面临根本性变革。智能体工作负载不再是简单的单轮问答，而是包含多轮交互、工具调用等复杂场景。这种变化给推理引擎带来了前所未有的压力，尤其...

2026-03-23 talkingdev

近日，GitHub上出现了一个名为Project N.O.M.A.D.（Node for Offline Media, Archives, and Data）的开源项目，它是一款自包含、优先离线的知识服务器，旨在为用户提供无需互联网连接的工具、教育资源和人工智能能力...

2026-02-25 talkingdev

人工智能初创公司Inception Labs近日正式发布了其新一代大语言模型Mercury 2，并宣称该模型是“全球最快的推理语言模型”。其核心目标是让生产环境中的AI应用响应达到“瞬时”体验。Mercury 2的技术亮点在于其采用了创新...

2026-02-23 talkingdev

近日，在GitHub上开源名为“ntransformer”的高效大语言模型推理引擎项目，其核心创新在于探索并实现了通过NVMe存储设备直接与GPU通信，绕过CPU和系统内存的传统数据路径，从而在消费级显卡RTX 3090上成功运行了参数量...

2026-02-13 talkingdev

近日，多家领先的AI推理服务提供商，包括Baseten、DeepInfra、Fireworks AI和Together AI，宣布通过在其服务中部署基于NVIDIA Blackwell架构的GPU并运行开源模型，成功将每次推理的令牌成本大幅降低了高达10倍。这一...

2026-01-29 talkingdev

近日，备受开发者关注的本地大语言模型运行平台LM Studio发布了其0.4.0版本更新。本次更新带来了多项关键性功能升级，核心聚焦于提升生产环境下的部署能力与推理性能。最引人注目的新特性是支持服务器部署模式，这使...

2026-01-16 talkingdev

近日，由D2I-ai团队在GitHub上开源的DASD（序列蒸馏）项目，提出了一种创新的模型蒸馏流程，旨在训练出更紧凑、高效的模型以应对复杂的推理任务。该流程整合了温度调度学习与发散感知采样等前沿技术，通过精细化的知...