Red Pajama v2已发布。它比用于训练GPT-4的数据集大2.5倍。它包含5种语言的多语言数据,并具有令人印象深刻的广度。重要的是,已经完成了许多去重工作和一些启发式过滤工作,没有代码数据。
Read More研究人员通过创建同理心对话训练数据集的方式,改进了用于心理咨询的大型语言模型的同理心能力。该研究旨在使机器人咨询师更加亲切自然,增加用户的体验感和满意度。目前,该技术已在心理咨询机器人和智能客服中得到...
Read More最受欢迎的扩散模型,如稳定扩散,已经在各种数据上进行了训练,但其中很多数据受到不同的版权限制。MosaicML提出的这种新模型纯粹基于创意共享数据进行训练,其性能与SD2相当,并且只需要训练数据的一小部分。
Read More现在,Google为生成式AI产品提供两种免责保护:一种涵盖训练数据使用,保护客户免受第三方知识产权侵权索赔的影响,另一种在采用负责任的AI实践的情况下,为一系列Google Cloud服务生成的输出提供保护。这些措施旨在...
Read More本研究评估了大型语言模型(LLMs)在进行类似于人类的多轮对话时的能力。研究人员使用了一种名为Persona-Chat的数据集,该数据集包含有关对话参与者偏好和兴趣的信息。研究结果表明,LLMs在某些方面表现出了与人类类...
Read More调整语言模型需要按特定格式创建训练数据。这通常是令人沮丧和缓慢的过程。本文探讨了自动化该过程的简单方法。 深度学习模型的表现受到其训练数据的质量的影响。因此,对于特定任务,调整语言模型的能力非常重要。...
Read More谷歌向客户提供两种保障措施,以缓解与生成式人工智能相关的风险。第一种涵盖了训练数据,保护用户免受第三方知识产权侵权的风险。第二种生成结果保障计划则涵盖了对使用谷歌产品创建内容的知识产权索赔,但前提是遵...
Read More