Mozilla AI实验室近日在GitHub开源了Python库Any LLM,该项目旨在为开发者提供与多种大语言模型(如Mistral、OpenAI等)交互的统一接口。该工具通过标准化API调用方式显著降低了模型切换的技术门槛,其核心优势包括...
Read More通义千问团队正式发布Qwen3-Coder,这是迄今为止最先进的智能编码代理模型。该模型采用4800亿参数的混合专家架构(Mixture-of-Experts),其中激活参数达350亿,并支持超长上下文处理。在智能编码、浏览器操作和工具...
Read More阿里云旗下通义千问(Qwen)团队近日宣布对Qwen3-235B-A22B模型进行重大更新,新版本编号为Qwen3-235B-A22B-2507。此次更新的核心变化是取消了原先的混合思维模式(hybrid thinking mode),转而采用将指令模型(Instruct...
Read More一项名为“Power”注意力的创新技术通过引入超参数p,实现了对状态大小的独立控制,有效解决了长上下文训练中计算成本平衡的难题。该机制在长序列任务中表现优于标准注意力,并支持定制GPU内核,在64k上下文长度下速度...
Read More谷歌宣布为其AI Pro和AI Ultra订阅用户推出搜索功能的重大升级,集成Gemini 2.5 Pro模型并引入深度搜索(Deep Search)技术。这一更新标志着搜索引擎正式进入多轮复杂交互时代,支持用户提交更长查询语句及连续追问...
Read More深度学习领域知名专家安德鲁·卡帕西(Andrej Karpathy)近日就强化学习(RL)的规模化应用趋势发表了深刻见解,指出RL的扩展性已成为当前AI研究的焦点。他强调,强化学习在得当的运用下,能够展现出远超监督式微调的...
Read More最新研究发现,在数学问题中插入诸如'有趣的事实:猫一生大部分时间在睡觉'等无关短语,会导致大语言模型的错误应答率较基准水平飙升300%。这种与查询无关的对抗性触发现象具有跨模型规模的迁移性,且蒸馏版模型表现...
Read More斯坦福大学SNAP实验室在GitHub开源了Biomni项目,这是一种通用型生物医学AI智能体,通过结合大语言模型(LLM)的推理能力、检索增强规划技术以及代码执行功能,能够自主完成跨生物医学领域的研究任务。该系统突破了...
Read More