高吞吐量的相关内容 - 漫话开发者

2025-07-08 talkingdev

[论文推荐] Mercury：基于扩散模型的超高速语言模型

近日，研究人员发布了新一代商业级大语言模型Mercury，该模型基于扩散模型技术，采用Transformer架构进行参数化，并能够并行预测多个token。报告重点介绍了Mercury Coder，这是首套专为编程应用设计的扩散大语言模型...

2025-06-24 talkingdev

近日，SGLang宣布成功集成Transformers后端技术，这一重大进展使开发者能够将Hugging Face的模型API与SGLang的高吞吐量、低延迟引擎相结合。该集成不仅显著提升了模型推理效率，还为自然语言处理（NLP）领域的实时应...

2025-06-06 talkingdev

Tokasaurus是一款针对高吞吐量工作负载优化的大型语言模型（LLM）推理引擎，由斯坦福大学Scaling Intelligence团队研发。该引擎通过创新的架构设计和算法优化，显著提升了LLM在批量处理任务时的计算效率，为需要大规...

2025-05-21 talkingdev

近日，开发者社区热议一款名为“ZLinq”的新型LINQ库，其主打零内存分配特性，专为.NET平台设计。LINQ（Language Integrated Query）作为.NET生态中数据查询的核心技术，长期面临性能损耗问题，尤其在频繁操作时易产生...

2025-04-30 talkingdev

开源项目ArkFlow近日引发技术社区广泛关注，该项目基于Rust语言开发，定位为高性能流处理引擎，其核心价值在于为实时数据处理场景提供强大支持。ArkFlow采用Rust的内存安全特性与零成本抽象能力，实现了微秒级延迟的...

2025-04-24 talkingdev

最新研究表明，采用混合专家模型（MoE）架构的DeepSeek-V3/R1在多节点GPU部署中展现出显著性能优势。该模型通过创新的资源分配机制，在绝大多数应用场景下同步实现了更高吞吐量和更低延迟的双重突破。技术分析显示，...

2025-04-17 talkingdev

M1是一种基于Mamba架构的推理模型，通过扩展测试时间计算进行训练。虽然尚未完全达到最先进模型的水平，但M1在长上下文处理和高吞吐量任务中表现出色。这一突破为大规模语言模型的推理效率提供了新的研究方向，特别...

2024-11-24 talkingdev

近日，一项名为OpenMPTCProuter的新技术被推出，旨在通过多路径传输控制协议（MPTCP）整合和加密多条互联网连接。MPTCP是一种允许单个应用程序同时使用多个物理网络路径传输数据的协议，以此提高吞吐量、减少延迟并...