最新研究表明,通过在大语言模型(LLM)的残差流中实施简单的表征控制向量干预,可显著调节其推理性能。这项发表于arXiv的突破性研究揭示了神经网络内部表征与逻辑推理能力的直接关联,为可解释AI领域提供了新工具。...
Read More小米近日在GitHub上开源了MiMo推理模型项目,该项目旨在解锁语言模型的推理潜力,涵盖从预训练到后训练的全过程。MiMo模型通过优化训练流程和引入新的推理机制,显著提升了语言模型在复杂任务中的表现。这一开源项目...
Read More人工智能研究机构Inception Labs近日正式发布了商用级扩散语言模型Mercury,标志着自然语言处理技术向大规模商业化应用迈出重要一步。该模型基于先进的扩散概率模型框架,通过多阶段训练策略实现了文本生成的稳定性...
Read More近期GitHub上出现了一个名为AI Hedge Fund的开源项目,该项目通过现代推理模型探索自动化交易的新路径。与同类尝试相比,其创新性在于采用了基于角色提示(persona based prompting)的技术框架,能够聚合对各类基础资...
Read MoreGitHub项目Chain-of-Recursive-Thoughts提出了一种创新方法,通过让AI模型反复自我辩论来提升其思考深度。开发者PhialsBasement发现,这种方法虽然看似简单,但效果却出奇地好。该项目在Hacker News上引发了广泛讨论...
Read MoreIBM研究院近日推出开源大语言模型Bamba,该模型创新性地结合了Transformer架构的序列建模能力和状态空间模型(SSM)的推理速度优势。作为IBM Granite系列模型的技术前导,Bamba通过注意力机制与状态空间方程的混合设...
Read MoreDeepMind最新推出的AlphaFold 3在分子结构预测领域实现重大突破,新增了对DNA、RNA及各类分子结构的预测能力,同时显著提升了复杂分子间相互作用的预测精度。这一突破性工具现通过欧洲分子生物学实验室(EMBL-EBI)...
Read More来自arXiv的最新研究论文提出ReLearn框架,通过创新的数据增强和微调技术,解决了大语言模型(LLMs)中的关键挑战——'遗忘学习'(Unlearning)。该技术可精准移除模型训练数据中的特定信息,同时保持整体性能,对数据...
Read More