漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-03-13 talkingdev

[开源]LM-Implicit-Reasoning:探究语言模型的逐步隐式推理能力

近日,GitHub开源项目LM-Implicit-Reasoning引发了广泛关注。该研究深入探讨了语言模型在逐步隐式推理方面的表现,揭示了其在处理包含变量作为减数的表达式时的泛化能力不足的问题。语言模型在自然语言处理(NLP)领...

Read More
2025-03-05 talkingdev

L-MAP技术革新:提升离线强化学习中的序列决策能力

近日,L-MAP技术在离线强化学习(Offline RL)领域取得了显著进展,特别是在处理随机、高维连续动作空间中的序列决策问题。L-MAP通过结合VQ-VAE模型,成功学习并优化了宏动作(macro-actions),从而显著提升了决策...

Read More
2025-02-28 talkingdev

DeepSeek开源DualPipe:创新并行策略提升模型计算与通信效率

近日,DeepSeek在GitHub上发布了名为DualPipe的开源项目,展示了其在模型并行计算领域的最新研究成果。DualPipe采用了一种新颖的并行策略,旨在优化模型的计算与通信重叠,从而显著提升整体性能。这一策略通过高效的...

Read More
2025-02-13 talkingdev

DeepScaleR:通过扩展RL训练,1.5B模型超越O1-Preview

近期,DeepScaleR的研究成果引起了广泛关注。该研究通过扩展强化学习(RL)训练,成功开发出一款1.5B参数的模型,其性能超越了O1-Preview。研究团队采用了一种独特的方法,即在RL训练过程中逐步增加上下文长度,从而...

Read More
2025-02-10 talkingdev

论文:使用新方法追踪语言模型特征演化,提升模型解释性与控制能力

近日,一项研究提出了一种创新方法,通过无数据余弦相似度技术追踪稀疏自编码器在大型语言模型(LLM)连续层中发现的特征演化过程。该方法能够映射特征的持久性、转换和涌现,生成跨层特征图。研究表明,这些特征图...

Read More
2025-01-28 talkingdev

Llama推理模型在GitHub Gist上的最新进展

近日,GitHub Gist上发布了一个关于Llama推理模型的最小化工作复现版本。该模型最初由OpenAI提出,并由DeepSeek发布。该模型通过数学问题的格式和正确性奖励进行训练,展示了在长时间训练后出现的“顿悟”时刻。这一进...

Read More
2024-12-16 talkingdev

新型LLM优化技术大幅降低内存成本

近日,一项新的LLM(大型语言模型)优化技术在人工智能领域引起了广泛关注。这项技术通过在模型架构和训练算法上的创新,实现了对LLM内存消耗的显著降低,从而大幅度减少了模型部署和运行的成本。具体来说,这项技术...

Read More
2024-09-20 talkingdev

论文:通过强化学习训练语言模型实现自我纠错

近期研究表明,通过强化学习可以有效地训练语言模型,使其具备自我纠错的能力。这一方法不仅提升了模型的准确性,还增强了其处理复杂任务的灵活性。强化学习的应用使得语言模型在面对错误时能够自我识别并进行调整,...

Read More
  1. Prev Page
  2. 2
  3. 3
  4. 4
  5. Next Page