高效推理的相关内容 - 漫话开发者

2026-07-22 talkingdev

Poolside 发布 Laguna S 2.1：1180 亿参数 MoE 模型，专攻智能体编程，上下文窗口突破 100 万 token

专攻 AI 编码的初创公司 Poolside 在 Hugging Face 上正式发布了其最新大型语言模型 Laguna S 2.1。该模型采用混合专家架构，总参数量高达 1180 亿，但每个 token 仅激活其中 80 亿个参数，在保持强大能力的同时实现...

2026-02-20 talkingdev

近日，StepFun正式发布了其前沿开源基础模型Step 3.5 Flash。该模型定位为高效、高速推理与具备智能体（Agent）能力的先进模型，其核心特性在于集成了工具使用、长上下文处理以及支持本地部署等关键能力。Step 3.5 F...

2026-01-16 talkingdev

近日，由D2I-ai团队在GitHub上开源的DASD（序列蒸馏）项目，提出了一种创新的模型蒸馏流程，旨在训练出更紧凑、高效的模型以应对复杂的推理任务。该流程整合了温度调度学习与发散感知采样等前沿技术，通过精细化的知...

2025-12-03 talkingdev

人工智能领域迎来重要开源进展。Mistral AI正式发布了其新一代Mistral 3系列模型，该系列包含两大技术路线：一是三款不同规模的密集模型（参数规模分别为140亿、80亿和30亿），二是备受瞩目的Mistral Large 3稀疏混...

2025-11-29 talkingdev

人工智能公司Prime Intellect正式推出INTELLECT-3模型，这是一个基于强化学习训练、具备1060亿参数的混合专家开源模型。该模型采用创新的MoE架构，通过动态激活专家网络显著提升计算效率，在数学推理、代码生成、科...

2025-06-30 talkingdev

vLLM是一款开源的大语言模型推理引擎，近日其团队发布了全新的V1架构。本文深入剖析了vLLM V1架构如何通过OpenAI兼容API服务器和核心引擎高效处理推理请求，实现业界领先的文本生成性能。该架构优化了推理请求的处理...

2025-06-26 talkingdev

近期GitHub上开源的ConciseHint项目提出了一种创新的大语言模型推理优化技术。该技术通过在生成过程中注入学习或手工设计的简洁提示，能够在保持模型性能的前提下显著提升推理过程的简洁性。这一突破性方法解决了当...

2025-06-13 talkingdev

字节跳动旗下TikTok母公司最新发布的Seedance 1.0模型在文本生成视频（text-to-video）和图像生成视频（image-to-video）两项核心任务中均位列榜首，其性能表现超越谷歌Veo 3与OpenAI Sora等业界标杆。该模型仅需41...