深度学习的相关内容 - 漫话开发者

2025-10-27 talkingdev

PyTorch隐藏Bug曝光：苹果MPS GPU上Adam优化器内存处理异常导致训练停滞

一位开发者在构建稀疏自编码器时遭遇了罕见的PyTorch框架底层Bug。该问题表现为模型训练损失函数持续处于平台期，经深度排查发现根本原因在于苹果硅GPU（MPS）后端执行Adam优化器时，由于内存处理机制缺陷导致部分张...

2025-09-28 talkingdev

由LinkedIn联合创始人里德·霍夫曼与普利策奖得主、癌症研究员悉达多·穆克吉共同创立的AI药物发现公司Manas AI，在完成1月2460万美元种子轮融资后，近日再获2600万美元种子扩展资金。这家总部位于纽约的AI原生药物研...

2025-09-27 talkingdev

Thinking Machines公司近期发布的研究成果《模块化流形》提出了一种创新的几何框架，用于协同设计带有流形约束的神经网络优化器。该框架通过引入微分几何中的流形概念，将优化问题的约束条件自然地嵌入到神经网络训...

2025-09-27 talkingdev

苹果机器学习研究团队在GitHub上开源了蛋白质结构预测工具SimpleFold，其技术细节同步发布于预印本平台arXiv。该项目通过优化深度学习架构和训练策略，显著降低了蛋白质三维结构预测的计算复杂度。与传统方案相比，S...

2025-09-01 talkingdev

当前深度学习训练规模不断扩大，如何高效利用多GPU资源成为关键挑战。最新技术分析揭示了并行化策略的核心在于设备网格（Device Mesh）的智能架构设计。设备网格作为PyTorch和JAX框架的核心抽象，将GPU集群组织为N维...

2025-08-27 talkingdev

当前AI编程助手在代码库上下文检索领域存在技术路线分歧：传统关键词检索（grep）与向量搜索驱动的RAG架构形成鲜明对比。研究显示，虽然grep具备速度快、结果精确的优势，但其机械式匹配会导致大量无关结果泛滥，不...

2025-08-26 talkingdev

由Cognition推出的DeepWiki是一款基于人工智能的代码理解工具，能够将任意GitHub代码仓库转化为结构清晰、易于导航的Wiki知识库。该工具通过融合深度学习与代码语义分析技术，支持快速检索和深度研究两种模式，用户...

2025-08-25 talkingdev

近日，开源社区推出革命性工具库Kernel-builder，专门用于构建和部署跨硬件架构的自定义CUDA内核。该工具通过提供完整的开发框架，显著降低了高性能计算内核从开发到生产环境部署的技术门槛。根据技术文档介绍，开发...