模型的相关内容 - 漫话开发者

2023-11-06 talkingdev

Talk Llama开源：在终端上与LLaMA AI对话

最近，一个名为Talk Llama的Github仓库备受关注，该仓库提供了一种在终端上与LLaMA AI进行交互的方式。LLaMA AI是一个基于GPT-3的自然语言处理模型，它的名字是“Language Model for Multi-turn Dialogue with Latent...

2023-11-06 talkingdev

研究人员通过创建同理心对话训练数据集的方式，改进了用于心理咨询的大型语言模型的同理心能力。该研究旨在使机器人咨询师更加亲切自然，增加用户的体验感和满意度。目前，该技术已在心理咨询机器人和智能客服中得到...

2023-11-06 talkingdev

Nous研究利用他们的Yarn方法对Mistral 7B进行了微调，可以处理长达128k的语境。它在短序列长度上显示出最小的退化，并在长文档上大大提高了性能。

2023-11-03 talkingdev

Cohere AI的研究部门For AI开发了用于混合专家模型的参数高效微调方法，称为MoE PEFT。该算法可显著提高模型的微调效率，同时保持准确性。最近，该团队公开了该算法的GitHub代码库，为社区提供更多研究资源和工具。C...

2023-11-03 talkingdev

这项研究表明，使用大型语言模型将类别组织成层次结构可以提高图像分类的准确性，从而解决预训练模型（如CLIP）中存在的偏差问题，这些模型会混淆相似的类别。

2023-11-03 talkingdev

最近，一家开发团队发布了一个名为“LLM Toolkit”的开源Python工具包，用于构建基于RAG的语言模型生成应用程序。它提供了快速的RAG微调、模型训练和服务脚本，同时支持多种文本数据输入和输出格式。该工具包的代码已...

2023-11-03 talkingdev

Nous Research运用他们的Yarn方法来优化Mistral 7B的性能，使其可以处理长达128k的上下文。该方法在短序列长度上表现良好，并可以显著提高处理长文档的性能。

2023-11-03 talkingdev

研究人员通过创建一个情感对话训练数据集的方式，改进了用于心理咨询的大型语言模型的情感能力。