微调的相关内容 - 漫话开发者

2023-11-03 talkingdev

用于RAG、微调和模型服务的开源工具包

最近，一家开发团队发布了一个名为“LLM Toolkit”的开源Python工具包，用于构建基于RAG的语言模型生成应用程序。它提供了快速的RAG微调、模型训练和服务脚本，同时支持多种文本数据输入和输出格式。该工具包的代码已...

2023-11-03 talkingdev

亚马逊开始进入开源LLM领域，推出RoPE微调Mistral 7B模型，支持长文本上下文。该模型可在上下文中扩展至32k个令牌，可用于各种自然语言处理任务，例如问答和文本生成。RoPE是亚马逊开发的一种新的训练技术，可提高大...

2023-11-02 talkingdev

Mistral是一种基于深度学习的自然语言处理模型，其7B模型是目前最大的公开模型之一。现在，您可以使用Jupyter笔记本，根据自己的数据集对Mistral的7B模型进行微调，并仅需1美元的计算费用。微调Mistral模型可以提高...

2023-10-18 talkingdev

最近，一组研究人员针对数百个实验结果，总结出了微调 LoRA 的几点洞见。研究人员发现，针对特定场景进行细致的参数调整可以显著提升 LoRA 的性能，同时，合理的信道选择和传输功率也是提高 LoRA 传输可靠性的关键。...

2023-10-11 talkingdev

人工智能驱动软件的下一步演变并非聊天机器人，而是利用LLMs来完成实际工作的应用。AI基础设施联盟的此篇电子书全面覆盖了此领域的各个方面，包括Prompt工程、LLM逻辑和推理、主要框架如LlamaIndex、LangChain、Hays...

2023-10-06 talkingdev

在多GPU和多节点系统上训练语言模型存在多种挑战，且在这些场景下积累经验也非常困难。本篇博客文章详尽深入地研究了ZeRO，FSDP，以及在大规模训练或微调模型时可能遇到的问题。我们需要理解，进行分布式训练并不仅...

2023-10-04 talkingdev

AI生成技术正在重塑我们对大量数据收集的传统价值观。大型语言模型可以通过最小化的数据进行微调，甚至可以生成合成数据集，这使得专有数据的独特性和重要性可能正在逐渐减弱。在过去，我们通常认为数据量的大小和独...

2023-10-03 talkingdev

语言模型的性能往往受到其上下文长度的限制。一般来说，上下文长度的限制主要源于计算硬件和聪明的算法更新。StreamingLLM（Github Repo）提供了一种算法更新，通过将令牌流式传输至注意力机制，理论上可以支持无限...