语言模型的相关内容 - 漫话开发者

2025-06-18 talkingdev

MiniMax开源推理模型M1：混合专家架构+闪电注意力

人工智能公司MiniMax在GitHub开源了其4560亿参数规模的推理模型M1，该模型采用创新的混合专家架构（MoE）并引入'闪电注意力'技术，实现百万token级别的超长上下文处理能力（相当于DeepSeek R1的8倍）。特别值得注意...

2025-06-18 talkingdev

KV（键值）缓存是大型语言模型（LLM）推理过程中的关键技术，通过存储注意力计算的中间结果显著提升生成效率。以逐词生成"Time flies fast"为例，传统方式需在每个步骤重复计算"Time"和"flies"的注意力权重，而采用K...

2025-06-18 talkingdev

谷歌近日宣布其人工智能模型Gemini 2.5 Pro和Flash版本已全面开放使用，同时推出预览版Flash-Lite。此次更新最引人注目的是引入了可控的“思考预算”机制，该技术通过动态分配计算资源，在保证推理精度的同时为开发者...

2025-06-17 talkingdev

Groq的低延迟硬件技术现已正式成为Hugging Face Hub及SDK的可选推理服务提供商，这一合作标志着AI基础设施领域的重大突破。通过集成Groq的专用处理器架构，开发者能够以服务器无感知（serverless）方式极速调用Llama...

2025-06-17 talkingdev

GitHub最新开源项目CoRT（Code Interpreter Reasoning）提出了一种创新的方法，通过提示工程（hint engineering）对大语言模型进行后训练（post-train），使其能够将复杂计算任务智能分配给外部代码解释器执行。这一...

2025-06-17 talkingdev

Nanonets-OCR-s是一款前沿的图像转Markdown OCR模型，其能力远超传统文本提取技术。该模型通过智能内容识别和语义标记，能够将文档转化为结构化的Markdown格式。它不仅理解文档结构和内容上下文，还能输出智能格式化...

2025-06-17 talkingdev

TreeRL是一种创新的语言模型训练方法，通过结合on-policy树搜索和中间监督机制，实现了无需单独奖励模型的LLM训练。这一技术突破来自最新arXiv论文，相比传统的ChainRL方法，TreeRL在数学推理和代码生成等复杂任务上...

2025-06-17 talkingdev

Together AI宣布在其Serverless Inference API和专用端点服务中集成两大前沿AI模型：DeepSeek R1-0528语言模型与FLUX.1 Kontext图像生成系统。DeepSeek R1-0528通过升级的推理能力、函数调用支持及代码生成优化，显...