LoRA-Ensemble是一种面向自注意力网络的参数高效深度集成方法。该技术扩展了低秩适配(LoRA)的应用,通过隐式集成实现了在不增加传统集成方法高计算成本的情况下,仍能做出准确且校准良好的预测。这种方法不仅在精...
Read More评估语言模型一直以来都是一个复杂的任务,尤其是在大多数评估细节都只存在于大型公司内部的情况下。这篇论文展示了一套可重复且强大的评估标准,为研究人员提供了一个实用的框架。论文中包括了对困惑度评估的详细讨...
Read More近年来,20多岁的年轻创业者数量相较过去几十年有所下降,这可能与数字娱乐如游戏和TikTok的兴起有关,这些平台占用了他们的注意力和时间,导致他们缺乏原创性的想法。此外,科技行业在消费应用优化方面的进步可能正...
Read MoreCohere最新发布的Aya项目包含3种不同规模的模型,能够使用101种语言进行对话,其中许多语言资源极为稀缺。Aya项目的推出对于开放和普及研究社区来说是一个巨大的进步。通过这一项目,研究人员和开发者能够更广泛地获...
Read More由DeepMind科学家创办的AI初创公司H宣布完成2.2亿美元的种子轮融资,成为近年来最具规模的种子融资之一。这一轮融资的成功标志着法国AI人才的又一重大胜利。H公司致力于构建动作模型,这项技术有望在多个领域取得突...
Read More法律初创公司Harvey宣布与Mistral建立合作关系。尽管公告细节不多,但很可能双方将共同开发一个定制的法律模型。这一合作有望在法律技术领域带来新的突破,进一步推动法律行业的技术进步和效率提升。Harvey作为一家...
Read MoreMedLFQA是一个全新的基准数据集,旨在提升大规模语言模型在医疗领域中长篇回答的事实准确性。该数据集通过提供高质量的训练数据,帮助改进语言模型的回答精度。与此同时,OLAPH框架通过自动评估和偏好优化,训练大规...
Read More本项目引入了一种新的基于CNN的时空注意力(CSTA)方法,用于改进视频摘要。与传统的注意力机制不同,CSTA通过使用2D CNN来捕捉帧的视觉重要性,从而更好地理解视频中的关系和关键属性。这种方法不仅能够有效提取视...
Read More