DeepSeek的相关内容 - 漫话开发者

2025-02-27 talkingdev

LLM推理能力研究：System 2思维在大型语言模型中的应用

近期，一项针对OpenAI的o1/o3和DeepSeek的R1等推理型LLM的研究揭示了这些模型在逐步逻辑推理能力方面的表现。研究通过对比人类认知能力，对这些模型进行了基准测试。结果显示，尽管LLM在复杂任务中表现出色，但在需...

2025-02-26 talkingdev

科技界瞩目的人工智能公司DeepSeek正加快步伐，提前推出其备受期待的R2模型。原先计划于5月初发布R2模型的DeepSeek，现决定提前发布日期。新一代R2模型有望在编码技能上有所提升，并且能够处理除英语外的其他语言。...

2025-02-25 talkingdev

近日，DeepSeek宣布开源其内部基础设施的一部分，首推MLA（机器学习加速）核心框架FlashMLA。这一开源项目已在GitHub上发布，旨在为开发者提供高效、灵活的机器学习加速工具。FlashMLA通过优化计算资源分配和任务调...

2025-02-24 talkingdev

近日，DeepSeek NSA论文因其可扩展且高效的长上下文注意力算法引发了广泛关注。然而，该论文并未提供相关代码。为此，一项基于Triton的实现应运而生，该实现可无缝集成到任何PyTorch代码库中。Triton作为一种高效的G...

2025-02-24 talkingdev

近日，首个基于Muon优化器训练的大规模模型Moonlight 16B在GitHub上正式发布。该模型经过5.7万亿个token的训练，架构与DeepSeek v3高度相似。Muon优化器的引入为大规模模型的训练提供了新的可能性，显著提升了训练效...

2025-02-21 talkingdev

梁文峰，一位对冲基金经理，推出了自筹资金的开源AI平台DeepSeek，该平台因其创新的LLM（如DeepSeek-R1）而迅速获得全球关注，这些模型可与OpenAI的模型相媲美。DeepSeek采用更具成本效益的训练方法，并兼容消费级硬...

2025-02-19 talkingdev

近日，DeepSeek公司推出了一项名为Native Sparse Attention的创新算法技术，旨在加速传统的二次Attention计算。该技术通过硬件对齐和原生可训练的稀疏Attention机制，实现了高达11倍的计算速度提升，同时保持了整体...

2025-02-04 talkingdev

DeepSeek的AI模型以其显著低于其他领先模型的训练成本，正在颠覆AI市场。这一突破性进展不仅挑战了Nvidia等科技巨头的地位，还展示了资源高效利用的潜力。传统观念认为，更高的投入意味着更好的性能，但DeepSeek的成...