大模型的相关内容 - 漫话开发者

2025-10-12 talkingdev

论文推荐|Meta超智能实验室首篇论文意外突破：注意力机制新范式

Meta Superintelligence Labs于arXiv发布编号2509.01092的首篇论文，引发学术社区高度关注。该研究并未延续当前大模型参数规模竞赛的常规路径，而是聚焦于注意力机制的基础架构创新。论文提出了一种名为"动态稀疏注...

2025-10-10 talkingdev

Anthropic联合英国AI安全研究所与艾伦·图灵研究所的最新研究表明，大语言模型面临严重的数据投毒威胁。实验发现，仅需在训练数据中插入250份被篡改的文档（仅占训练总量的0.00016%），就能在参数规模从6亿到130亿不...

2025-10-08 talkingdev

开发者Sean Goedecke在最新实验中证实，OpenAI的GPT-5-Codex在人工智能研究领域展现出超越人类研究员的潜力。通过构建自动化研究流程，Codex能够自主设计实验方案并根据结果持续优化策略，特别是在文本生成领域取得...

2025-10-08 talkingdev

最新技术研究显示，基于推理的智能代理系统可显著提升搜索相关性达15-30%。该突破性进展源于对搜索工具设计的重新思考——开发者应构建类似grep或基础关键词搜索的简洁透明工具，而非复杂系统。研究表明，推理代理在与...

2025-10-08 talkingdev

三星蒙特利尔AI实验室最新研究《Less is More: Recursive Reasoning with Tiny Networks》提出突破性方法，通过递归架构使参数量极少的神经网络具备复杂推理能力。该研究在arXiv公开的论文（编号2510.04871）中展示...

2025-10-06 talkingdev

思维机器实验室最新研究揭示了低秩适配技术（LoRA）在大语言模型微调领域的突破性表现。这项发表于权威平台的研究表明，当LoRA应用于模型所有层（尤其是MLP层）且不受数据集规模限制时，其性能可完全媲美传统全参数...

2025-10-03 talkingdev

科技巨头IBM近日正式推出Granite 4.0大语言模型系列，该开源方案采用创新的混合架构设计，宣称相比传统LLM可大幅降低内存占用。作为拥有114年历史的科技企业，IBM此次发布的模型特别强调“企业就绪”特性，通过结合Mam...

2025-10-02 talkingdev

谷歌开发者博客最新推出开源项目Tunix，这是一个基于JAX框架原生设计的专业化工具库，致力于简化大型语言模型从预训练到完全对齐、生产就绪的完整流程。该库为开发者提供了一套全面且友好的工具集，支持大规模模型对...