大模型的相关内容 - 漫话开发者

2025-10-08 talkingdev

论文推荐|Less is More：微型网络实现递归推理

三星蒙特利尔AI实验室最新研究《Less is More: Recursive Reasoning with Tiny Networks》提出突破性方法，通过递归架构使参数量极少的神经网络具备复杂推理能力。该研究在arXiv公开的论文（编号2510.04871）中展示...

2025-10-06 talkingdev

思维机器实验室最新研究揭示了低秩适配技术（LoRA）在大语言模型微调领域的突破性表现。这项发表于权威平台的研究表明，当LoRA应用于模型所有层（尤其是MLP层）且不受数据集规模限制时，其性能可完全媲美传统全参数...

2025-10-03 talkingdev

科技巨头IBM近日正式推出Granite 4.0大语言模型系列，该开源方案采用创新的混合架构设计，宣称相比传统LLM可大幅降低内存占用。作为拥有114年历史的科技企业，IBM此次发布的模型特别强调“企业就绪”特性，通过结合Mam...

2025-10-02 talkingdev

谷歌开发者博客最新推出开源项目Tunix，这是一个基于JAX框架原生设计的专业化工具库，致力于简化大型语言模型从预训练到完全对齐、生产就绪的完整流程。该库为开发者提供了一套全面且友好的工具集，支持大规模模型对...

2025-10-01 talkingdev

智谱AI正式推出新一代开源权重模型GLM-4.6，该模型最突出的特性是支持高达200K tokens的上下文窗口，使其能够处理更长的文档和复杂任务链。官方宣称在编程与逻辑推理任务上已接近Anthropic公司发布的Claude Sonnet 4...

2025-09-30 talkingdev

深度求索公司最新推出的DeepSeek-V3.2-Exp模型引入了创新的稀疏注意力机制，这一技术突破专门针对长上下文序列的训练和推理效率进行了深度优化。该机制通过智能选择关键注意力区域，显著降低了计算复杂度，使得模型...

2025-09-25 talkingdev

Meta公司最新推出了名为CWM（Code World Model）的开源大语言模型，该模型参数量达320亿，采用仅解码器架构。其创新之处在于训练数据融合了代码执行轨迹与复杂推理任务，旨在构建能够理解代码动态执行过程的‘世界模...

2025-09-18 talkingdev

Quesma实验室最新发布的Tau²基准测试研究表明，通过精细化提示词工程可显著提升轻量级AI模型在工具调用场景中的表现。该团队针对GPT-5-mini模型进行提示词重构后，在模拟真实工具使用场景的基准测试中成功率提升超20...