模型的相关内容 - 漫话开发者

2025-09-04 talkingdev

AI生成Metal内核将PyTorch在苹果设备推理速度提升87%

研究人员通过前沿AI技术实现了重大突破：利用自主生成的Metal GPU内核，将PyTorch在苹果设备上的推理速度平均提升1.87倍。这项研究测试了215个PyTorch模型，其中部分工作负载甚至达到基线性能的数百倍加速。该技术采...

2025-09-04 talkingdev

瑞士近日正式推出名为Apertus的开源人工智能大模型，该模型仅使用公开可获取的数据进行训练，支持超过1000种语言，提供80亿和700亿两种参数规格版本。这一举措标志着主权国家首次以独立身份参与全球AI竞争。Apertus...

2025-09-03 talkingdev

提示注入攻击正成为大型语言模型面临的新型安全威胁，这种攻击通过操纵自然语言处理能力来利用系统漏洞，其原理类似于传统的SQL注入攻击。研究人员最新提出了六种核心设计模式来强化AI智能体的安全防护：行动选择器...

2025-09-03 talkingdev

作为图神经网络（GNN）的共同创建者，斯坦福大学背景的专家最新指出，图Transformer正在成为结构化数据处理的新范式。该技术通过注意力机制替代传统消息传递方式，能够更有效地建模关系型数据中隐含的图结构。企业核...

2025-09-03 talkingdev

随着Model Context Protocol（MCP）迅速成为连接大语言模型与外部工具数据的核心标准，其安全风险正引发行业高度关注。Wiz最新发布的研究指南指出，尽管MCP能显著提升LLM与外部系统的集成效率，但许多团队在缺乏明确...

2025-09-02 talkingdev

据路透社报道，Meta正在采取一项战略性临时措施：在开发下一代大语言模型Llama 5期间，计划将谷歌和OpenAI的AI模型集成到其产品生态中。这一决策反映了当前AI军备竞赛中技术迭代与产品化需求之间的平衡策略。值得注...

2025-09-01 talkingdev

当前深度学习训练规模不断扩大，如何高效利用多GPU资源成为关键挑战。最新技术分析揭示了并行化策略的核心在于设备网格（Device Mesh）的智能架构设计。设备网格作为PyTorch和JAX框架的核心抽象，将GPU集群组织为N维...

2025-09-01 talkingdev

最新研究通过机制可解释性方法深入解析了基于Transformer架构的大语言模型(LLM)的工作原理。研究表明，LLM并非简单的统计预测器，而是通过形成涌现电路结构来实现复杂任务处理。这些电路整合了学习统计规律、信息传...