深度学习的相关内容 - 漫话开发者

2025-11-28 talkingdev

开源|DeepSeekMath-V2：迈向可自我验证的数学推理新突破

深度求索公司最新发布的DeepSeekMath-V2研究论文在GitHub平台引发广泛关注，该研究标志着数学推理AI模型向自我验证能力迈出了重要一步。这项前沿技术通过引入自我验证机制，使模型能够自动检查数学推导过程的正确性...

2025-10-27 talkingdev

一位开发者在构建稀疏自编码器时遭遇了罕见的PyTorch框架底层Bug。该问题表现为模型训练损失函数持续处于平台期，经深度排查发现根本原因在于苹果硅GPU（MPS）后端执行Adam优化器时，由于内存处理机制缺陷导致部分张...

2025-09-28 talkingdev

由LinkedIn联合创始人里德·霍夫曼与普利策奖得主、癌症研究员悉达多·穆克吉共同创立的AI药物发现公司Manas AI，在完成1月2460万美元种子轮融资后，近日再获2600万美元种子扩展资金。这家总部位于纽约的AI原生药物研...

2025-09-27 talkingdev

Thinking Machines公司近期发布的研究成果《模块化流形》提出了一种创新的几何框架，用于协同设计带有流形约束的神经网络优化器。该框架通过引入微分几何中的流形概念，将优化问题的约束条件自然地嵌入到神经网络训...

2025-09-27 talkingdev

苹果机器学习研究团队在GitHub上开源了蛋白质结构预测工具SimpleFold，其技术细节同步发布于预印本平台arXiv。该项目通过优化深度学习架构和训练策略，显著降低了蛋白质三维结构预测的计算复杂度。与传统方案相比，S...

2025-09-01 talkingdev

当前深度学习训练规模不断扩大，如何高效利用多GPU资源成为关键挑战。最新技术分析揭示了并行化策略的核心在于设备网格（Device Mesh）的智能架构设计。设备网格作为PyTorch和JAX框架的核心抽象，将GPU集群组织为N维...

2025-08-27 talkingdev

当前AI编程助手在代码库上下文检索领域存在技术路线分歧：传统关键词检索（grep）与向量搜索驱动的RAG架构形成鲜明对比。研究显示，虽然grep具备速度快、结果精确的优势，但其机械式匹配会导致大量无关结果泛滥，不...

2025-08-26 talkingdev

由Cognition推出的DeepWiki是一款基于人工智能的代码理解工具，能够将任意GitHub代码仓库转化为结构清晰、易于导航的Wiki知识库。该工具通过融合深度学习与代码语义分析技术，支持快速检索和深度研究两种模式，用户...