Distilabel是为AI工程师设计的框架,使用人类反馈的强化学习方法(例如奖励模型和DPO)对大型语言模型进行对齐。 它主要专注于LLM微调和适应性。 Distilabel可协助数据收集,清洗和训练。
Read More一篇令人惊叹的论文将视频框架作为人工智能与人类用户交互的一种潜在更好的方法。它展示了视频模型可以用作规划器、代理、计算引擎和环境模拟器。以视频为基础的人工智能可以模拟现实世界,更好地支持人类决策。
Read More本研究致力于提高基于多模态的GPT-4V等模型在低级视觉感知任务中的表现。大规模实验从58,000名人类受试者中收集了18,973张图像的反馈,并创建了Q-Pathway数据集,以分析其清晰度、色彩和亮度。
Read More来自加州大学圣地亚哥分校(UCSD)的研究人员训练了人形机器人的动作,使其更具表现力、社交倾向和鲁棒性。他们在草地上的非编排舞蹈视频非常令人印象深刻。该研究团队使用了深度强化学习,让机器人能够快速学习和适应...
Read More最近,研究人员开发了一种名为ShieldLM的安全检测器,可帮助大型语言模型遵守人类安全标准,并提供自定义检测和解释决策的功能。该工具可检测模型是否存在安全问题,例如对不同种族、性别或群体的人有偏见,或者可能...
Read MoreOpenCodeInterpreter模型基于CodeLlama和DeepSeek Coder,通过训练合成多轮数据集和使用人类反馈,能够在编程HumanEval基准测试中获得85%以上的准确率。
Read More最近在《自然》杂志上介绍了一种名为FunSearch的方法,它使用大型语言模型在数学和计算机科学中进行新的发现。该方法将创造性的LLM与评估器配对,以产生可验证的解决方案,并在难以解决的cap set 和bin-packing问题...
Read MorePhind的70B代码模型在人类评估中获得83%的高分,与GPT-4表现相当。关键是它拥有显著较少的慵懒回应和拒绝。34B模型即将发布,更大的70B模型也将在未来发布。
Read More人工智能将会自动化劳动力的部分工作。目前的反应是两极分化的:这种效率是否意味着同样的人可以做更多的工作还是会有更少的人做同样的工作?本文探讨了技术对制造业和农业的影响与现代知识工作者所面临的情况之间的...
Read More太空视角公司可能会在接下来的几个月内开始测试其豪华高空气球。该公司计划使用巨大的高空气球,在卡纳维拉尔角海岸外的大西洋上无人驾驶地飞行其加压舱。太空视角计划在测试项目期间开始建造第二个供人类试飞的舱。...
Read More