Distilabel是为AI工程师设计的框架,使用人类反馈的强化学习方法(例如奖励模型和DPO)对大型语言模型进行对齐。 它主要专注于LLM微调和适应性。 Distilabel可协助数据收集,清洗和训练。
Read More来自加州大学圣地亚哥分校(UCSD)的研究人员训练了人形机器人的动作,使其更具表现力、社交倾向和鲁棒性。他们在草地上的非编排舞蹈视频非常令人印象深刻。该研究团队使用了深度强化学习,让机器人能够快速学习和适应...
Read More近日,研究人员提出了一种新的自动驾驶汽车高效模型——尖峰神经网络。该模型通过减少能耗高达85%,实现了高性能的目标。该模型在 GitHub 上建立了一个存储库,供研究人员和开发人员参考。据悉,尖峰神经网络结合了神...
Read MoreDreamRec引入了一种新颖的“学习生成”方法,用于顺序推荐。与传统方法从正负项目的混合中分类用户偏好不同,它创建了一个代表用户理想下一个选择的“神谕”项目。
Read More这是一份关于使用LLMs进行注释的精选论文列表,LLMs是一种基于机器学习的语言模型,能够自动预测文本中的下一个单词或字符。使用LLMs进行注释可以提高注释的准确性和效率,目前在自然语言处理和计算机视觉领域被广泛...
Read MoreMindy是一款基于电子邮件的首席助手,由人工智能驱动。这个应用程序旨在帮助用户使用电子邮件系统来管理他们的时间和任务。Mindy使用自然语言处理和机器学习来识别电子邮件中的任务和约会,并将它们自动添加到用户的...
Read MoreAnthropic的研究科学家一直在研究一种使用电路的理解深度神经网络的方法。这些电路旨在识别模型中用于特定任务的子部分。研究团队公布了他们尝试和结果的月度更新。通过使用电路,Anthropic的研究人员已经能够更好地...
Read More