优化器的相关内容 - 漫话开发者

2025-10-27 talkingdev

PyTorch隐藏Bug曝光：苹果MPS GPU上Adam优化器内存处理异常导致训练停滞

一位开发者在构建稀疏自编码器时遭遇了罕见的PyTorch框架底层Bug。该问题表现为模型训练损失函数持续处于平台期，经深度排查发现根本原因在于苹果硅GPU（MPS）后端执行Adam优化器时，由于内存处理机制缺陷导致部分张...

2025-10-24 talkingdev

加州大学伯克利分校研究团队开发的进化编码智能体OpenEvolve，成功将大型语言模型转化为自主代码优化器，在混合专家模型负载平衡任务中取得重大突破。该系统通过模拟自然选择机制，使LLM能够自主探索算法空间，最终...

2025-09-27 talkingdev

Thinking Machines公司近期发布的研究成果《模块化流形》提出了一种创新的几何框架，用于协同设计带有流形约束的神经网络优化器。该框架通过引入微分几何中的流形概念，将优化问题的约束条件自然地嵌入到神经网络训...

2025-09-25 talkingdev

Apache社区最新推出SedonaDB——一款基于Rust构建的开源单节点分析数据库引擎，其革命性突破在于将地理空间数据提升为“第一优先”。该引擎深度集成Apache Arrow列式内存计算框架与DataFusion查询引擎，原生支持空间数据...

2025-07-22 talkingdev

月之暗面(MoonshotAI)团队最新发布的Kimi K2技术报告揭示了其大型语言模型系列的重大技术突破。该团队创新性地开发出MuonClip技术，通过将token高效的Muon优化器与新型QK-Clip技术相结合，成功解决了万亿参数模型训...

2025-02-24 talkingdev

近日，首个基于Muon优化器训练的大规模模型Moonlight 16B在GitHub上正式发布。该模型经过5.7万亿个token的训练，架构与DeepSeek v3高度相似。Muon优化器的引入为大规模模型的训练提供了新的可能性，显著提升了训练效...

2024-06-29 talkingdev

Meta LLM编译器是一种新型编译器，采用神经网络进行优化和反汇编，能够显著提高代码的性能和可读性。该编译器可以自动检测代码中的瓶颈，并通过神经网络进行优化，从而提高代码的运行速度。此外，Meta LLM编译器还可...

2024-06-26 talkingdev

Imbue公司成功训练并发布了一款极其强大的70B语言模型。这款模型采用了Imbue自家的优化器，以及一些出色的数据过滤技术，训练过程中没有出现任何损失峰值。这表明该公司在技术上取得了显著的突破，为人工智能语言模...