规模的相关内容 - 漫话开发者

2025-04-21 talkingdev

[论文推荐]睡眠时间计算：提升LLM推理效率的新方法

一项突破性研究提出通过预计算上下文相关量来降低大型语言模型(LLM)推理成本的新方法。该技术利用模型空闲时间预先处理可能用到的上下文信息，在用户查询到来时能直接调用预计算结果。实验数据显示，这种方法可节省...

2025-04-18 talkingdev

AI代理是一种可以在用户授权下独立执行工作流程的人工智能系统。本指南旨在为产品和工程团队提供构建AI代理的相关知识，包括如何识别有前景的用例、设计代理逻辑和编排的清晰模式，以及确保代理安全、可预测且高效运...

2025-04-18 talkingdev

微软DeepSpeed团队在GitHub开源了DeepCompile项目，通过引入编译技术显著提升分布式训练性能。该项目针对训练过程中的瓶颈操作进行深度优化，采用改进版的torch compile实现算子融合与代码生成，实测可使关键操作获...

2025-04-18 talkingdev

Hugging Face平台最新发布的SIFT-50M（Speech Instruction Fine-Tuning）数据集，是一个包含5000万样本的大规模语音指令微调数据集，专为语音-文本大语言模型（LLMs）的指令微调和预训练而设计。该数据集基于公开可...

2025-04-17 talkingdev

Tile Language是一种简洁的领域特定语言（DSL），旨在简化和优化高性能GPU/CPU内核（如GEMM、Dequant GEMM、FlashAttention和LinearAttention）的开发流程。该语言采用类似Python的语法，并基于TVM（Tensor Virtual...

2025-04-17 talkingdev

M1是一种基于Mamba架构的推理模型，通过扩展测试时间计算进行训练。虽然尚未完全达到最先进模型的水平，但M1在长上下文处理和高吞吐量任务中表现出色。这一突破为大规模语言模型的推理效率提供了新的研究方向，特别...

2025-04-17 talkingdev

人工智能研究机构Prime Intellect近日取得重大突破，成功通过完全分布式的方式训练了一个参数量高达320亿（32B）的神经网络模型，并创新性地结合强化学习技术提升模型的推理能力。值得关注的是，该团队已将其核心训...

2025-04-17 talkingdev

OpenAI正式推出新一代o3和o4-mini模型，标志着大语言模型在功能整合与推理效率上的重大突破。该系列模型通过深度融合网络搜索、文件解析及图像生成三大核心能力，显著提升了ChatGPT的复杂任务处理水平。技术层面，o4...