模型的相关内容 - 漫话开发者

2023-08-22 talkingdev

AI的初期阶段：从LLMs、Transformer到扩散模型

我们当前的时代正处于一个全新的人工智能阶段，这个阶段的特点是LLMs、变压器和扩散模型的广泛应用。这与以往的人工智能发展阶段有着明显的区别。LLMs是一种复杂的深度学习模型，可以处理大量的数据并预测结果。变压...

2023-08-21 talkingdev

对于大多数大型语言模型（LLM）应用，微调并非必要。使用少量提示或检索增强生成（RAG）可能是更好的选择。少量提示是指向LLM提供期望输出的示例，而RAG则涉及查询向量数据库，获取LLM未经训练的信息。这意味着，我...

2023-08-21 talkingdev

GitHub近期发布了一款名为txtai的全新工具，这是一款集成语义搜索、LLM编排和语言模型工作流的全能型嵌入式数据库。这款工具能够将多种功能与应用集成在一起，为开发者提供了一个全新的、一体化的解决方案。通过txta...

2023-08-21 talkingdev

贝叶斯流网络是一种新颖的架构和训练算法。这是一份简洁、非官方的论文复制品。目标是构建一个可以扩展到GPT-2大小模型的代码库。贝叶斯流网络的出现，为深度学习模型的训练带来了新的可能性，其独特的结构和训练方...

2023-08-21 talkingdev

虽然有许多开放数据集，但能够训练前沿模型的规模却少之又少。艾伦人工智能研究所的Dolma数据集就致力于这一目标，希望能够使研究者能够在大规模上研究数据效应。这一数据集的发布，不仅为研究者提供了更高质量，更...

2023-08-19 talkingdev

轩辕是国内首个开源的千亿级中文对话大模型，同时也是首个针对中文金融领域优化的千亿级开源对话大模型。轩辕在BLOOM-176B的基础上针对中文通用领域和金融领域进行了针对性的预训练与微调，它不仅可以应对通用领域的...

2023-08-18 talkingdev

LoRA，全称低阶适配器，可以帮助改变模型性能。这意味着，你不需要对模型中的每个参数进行微调，只需训练一个可以轻松插入的子集。在这种情况下，社区中训练了许多可以改变SDXL行为的LoRA。这个空间可以帮助你探索其...

2023-08-18 talkingdev

近期，WizardLM团队的研究进展备受关注。他们最新的论文探讨了用于指令调整的数据策划问题。WizardLM在强化学习部分做出了突破性的提升，成功超越了许多封闭源模型在数学和推理任务上的表现。他们的研究成果可能会对...