arXiv的相关内容 - 漫话开发者

2026-07-13 talkingdev

论文推荐| 稀疏训练技术取得突破：大幅降低大语言模型计算成本，小型机构也能担纲

一项新研究探索了利用稀疏技术高效训练大语言模型的方法，旨在显著减少算力开销的同时保持模型性能。该方案通过引入结构化稀疏与动态剪枝策略，在训练前期识别并冻结低重要性参数，使有效参数量呈指数级下降，从而降...

2026-07-13 talkingdev

在执行复杂的长程任务时，智能体常常面临“行为状态衰减”困境：随着交互轨迹不断拉长，大量与决策相关的关键信息，如任务要求的变化、环境反馈、过往失败尝试的诊断以及尚未完成的子目标，会逐渐被淹没在上下文窗口中...

2026-07-12 talkingdev

在大语言模型后训练中，强化学习正变得愈发关键，但面向长周期智能体任务时，传统同步、批次交替的RL流程效率低下。异步强化学习通过随到随更新的方式提升了效率，然而现有系统多偏重吞吐量，训练稳定性和任务有效性...

2026-05-06 talkingdev

谷歌最新研究为人工智能领域的“幻觉”问题提供了一个颠覆性的理论框架。该论文指出，大语言模型（LLM）产生幻觉的核心并非传统认知中的“知识缺陷”或信息错误，而是模型在输出时未能有效表达其内在的不确定性。研究提...

2026-05-01 talkingdev

智谱AI团队发布的最新研究成果GLM-5V-Turbo，在人工智能领域迈出了关键一步。该模型的核心创新在于将多模态感知能力直接内嵌到模型的推理过程和工具使用中，而非作为独立的预处理步骤。这意味着模型能够同时处理并理...

2026-04-27 talkingdev

来自arxiv的最新研究提出了一种名为Vision Banana的通用视觉模型，该模型的核心创新在于将传统的视觉感知任务重新表述为图像生成问题。通过指令微调（instruction-tuning）的图像生成模型，Vision Banana能够在多种...

2026-04-25 talkingdev

一篇发表于arXiv上的新论文《There Will Be a Scientific Theory of Deep Learning》正引发人工智能学术界的广泛讨论。该文阐述了深度学习虽在实践中取得空前成功，但其理论基础仍相对薄弱，核心机制尚未被完全揭示...

2026-04-14 talkingdev

DeepMind的研究团队近日在arXiv上发布了一项名为“弹性循环Transformer”的创新工作，为视觉生成模型领域带来了显著的效率突破。传统视觉生成模型通常依赖堆叠大量独立的Transformer层，导致参数量庞大。ELT的核心创新...