漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-10-08 talkingdev

GPT-5-Codex实现突破:AI自主研究能力超越人类研究员

开发者Sean Goedecke在最新实验中证实,OpenAI的GPT-5-Codex在人工智能研究领域展现出超越人类研究员的潜力。通过构建自动化研究流程,Codex能够自主设计实验方案并根据结果持续优化策略,特别是在文本生成领域取得...

Read More
2025-10-08 talkingdev

推理技术提升搜索相关性15-30%,智能代理架构迎来突破

最新技术研究显示,基于推理的智能代理系统可显著提升搜索相关性达15-30%。该突破性进展源于对搜索工具设计的重新思考——开发者应构建类似grep或基础关键词搜索的简洁透明工具,而非复杂系统。研究表明,推理代理在与...

Read More
2025-10-08 talkingdev

论文推荐|Less is More:微型网络实现递归推理

三星蒙特利尔AI实验室最新研究《Less is More: Recursive Reasoning with Tiny Networks》提出突破性方法,通过递归架构使参数量极少的神经网络具备复杂推理能力。该研究在arXiv公开的论文(编号2510.04871)中展示...

Read More
2025-10-06 talkingdev

LoRA无憾:低秩适配技术全面匹敌全参数微调,突破大模型高效训练瓶颈

思维机器实验室最新研究揭示了低秩适配技术(LoRA)在大语言模型微调领域的突破性表现。这项发表于权威平台的研究表明,当LoRA应用于模型所有层(尤其是MLP层)且不受数据集规模限制时,其性能可完全媲美传统全参数...

Read More
2025-10-03 talkingdev

IBM发布开源企业级大模型Granite 4.0:混合架构显著降低内存占用

科技巨头IBM近日正式推出Granite 4.0大语言模型系列,该开源方案采用创新的混合架构设计,宣称相比传统LLM可大幅降低内存占用。作为拥有114年历史的科技企业,IBM此次发布的模型特别强调“企业就绪”特性,通过结合Mam...

Read More
2025-10-02 talkingdev

谷歌发布Tunix:基于JAX的LLM后训练工具库,加速大模型生产部署

谷歌开发者博客最新推出开源项目Tunix,这是一个基于JAX框架原生设计的专业化工具库,致力于简化大型语言模型从预训练到完全对齐、生产就绪的完整流程。该库为开发者提供了一套全面且友好的工具集,支持大规模模型对...

Read More
2025-10-01 talkingdev

智谱AI发布GLM-4.6大模型:200K上下文窗口,宣称编程推理能力逼近Claude Sonnet 4

智谱AI正式推出新一代开源权重模型GLM-4.6,该模型最突出的特性是支持高达200K tokens的上下文窗口,使其能够处理更长的文档和复杂任务链。官方宣称在编程与逻辑推理任务上已接近Anthropic公司发布的Claude Sonnet 4...

Read More
2025-09-30 talkingdev

DeepSeek-V3.2-Exp发布:稀疏注意力机制突破长序列处理瓶颈

深度求索公司最新推出的DeepSeek-V3.2-Exp模型引入了创新的稀疏注意力机制,这一技术突破专门针对长上下文序列的训练和推理效率进行了深度优化。该机制通过智能选择关键注意力区域,显著降低了计算复杂度,使得模型...

Read More
  1. Prev Page
  2. 2
  3. 3
  4. 4
  5. Next Page