大规模语言模型的相关内容 - 漫话开发者

2025-04-26 talkingdev

[论文推荐] 无损压缩大模型：动态长度浮点技术实现70%体积缩减，GPU推理效率飞跃

来自arXiv的最新研究论文提出了一种名为DFloat11的动态长度浮点无损压缩框架，通过创新性地利用LLM权重中BFloat16格式的低熵特性，实现了30%的模型体积缩减，同时保持输出结果与原始模型的比特级一致性。该技术采用...

2025-04-17 talkingdev

M1是一种基于Mamba架构的推理模型，通过扩展测试时间计算进行训练。虽然尚未完全达到最先进模型的水平，但M1在长上下文处理和高吞吐量任务中表现出色。这一突破为大规模语言模型的推理效率提供了新的研究方向，特别...

2025-04-03 talkingdev

本文梳理了2024年以来最具影响力的AI模型，深入解析其技术特性与应用场景。OpenAI推出的GPT-4.5 Orion凭借其强大的世界知识建模能力成为通用AI领域的标杆；Google的Gemini 2.5 Pro则专注于代码生成与理解，为开发者...

2025-02-19 talkingdev

近日，DeepSeek公司推出了一项名为Native Sparse Attention的创新算法技术，旨在加速传统的二次Attention计算。该技术通过硬件对齐和原生可训练的稀疏Attention机制，实现了高达11倍的计算速度提升，同时保持了整体...

2025-02-14 talkingdev

近日，Jakiro团队通过引入Mixture of Experts（MoE）技术，成功优化了Speculative Decoding的性能。该方法通过生成多样化的预测结果，减少了候选预测之间的相关性，从而显著提升了推理速度。Speculative Decoding作...

2025-01-28 talkingdev

Qwen团队近日发布了其最新的1M上下文模型，展示了在训练过程中逐步扩展上下文能力的技术进展。该模型不仅性能强劲，还支持本地化运行，显著提升了处理长文本任务的效率。此外，Qwen团队还发布了基于vLLM的推理框架，...

2024-12-05 talkingdev

近日，Genie 2项目公开了其最新进展，旨在打造一个大规模的基础世界模型。Genie 2通过整合大规模语言模型（LLM）与先进的知识嵌入技术，创建了一个能够理解和预测世界运作的复杂系统。这个模型不仅能够处理自然语言...

2024-10-05 talkingdev

在人工智能领域，LLMs（大规模语言模型）正逐渐成为研究的热点，尤其在心智理论（Theory of Mind）方面的应用。心智理论是指个体理解他人心理状态的能力，这一概念在社会交往中至关重要。最近，研究者们通过模拟Cher...