文本数据的相关内容 - 漫话开发者

2023-11-03 talkingdev

用于RAG、微调和模型服务的开源工具包

最近，一家开发团队发布了一个名为“LLM Toolkit”的开源Python工具包，用于构建基于RAG的语言模型生成应用程序。它提供了快速的RAG微调、模型训练和服务脚本，同时支持多种文本数据输入和输出格式。该工具包的代码已...

2023-10-20 talkingdev

DALLE-3研究论文揭示了其惊人性能的主要成分，包括合成标题生成器、改进的潜在扩散建模以及提升的忠实度、风格和连贯性测量方法。DALLE-3是一种生成式模型，具有非常出色的生成图像的能力，其原理是通过大量的图像和...

2023-10-17 talkingdev

Libgen是许多封闭模型中的数据集。虽然这个数据集的商业使用合法性存在争议，但研究人员仍在使用它来更好地了解语言模型训练数据质量。这个开源的GitHub代码库旨在将Libgen转换为txt文本文档的形式，以便更方便地进...

2023-08-09 talkingdev

Agentflow是一个旨在为用户提供创建和执行由大语言模型驱动的工作流的强大但易用的工具。它是以开源形式在GitHub上发布的一个项目，旨在通过复杂的工作流程来增强大语言模型的使用。这个工具的主要优势在于，用户无...

2023-07-28 talkingdev

AI基于文本的接口为我们与软件交互开辟了一种全新的方式，但是在非结构化文本中寻找洞察力却十分困难。Tidepool就是为解决这一问题而生，它能在用户的文本交互中找出模式，帮助你做出更好的产品决策。AI在许多领域已...

2023-06-27 talkingdev

Kor是一种新的技术，它利用LLMs（Language Learning Models）从文本中提取结构化数据。LLMs是一种能够理解和处理自然语言的模型，它们可以对文本进行深度分析，找出其中的关键信息和结构。Kor通过使用LLMs，可以将文...

2023-06-21 talkingdev

AI模型的训练数据质量对于获得良好性能非常重要。在代码模型中，数据去重往往非常重要。对于文本而言，目前尚不清楚它是否同样重要。然而，无论如何，本博客介绍了用于去重文本样式数据的技术。

2023-06-21 talkingdev

Autolabel是一个Python库，可以使用你选择的任何大型语言模型（LLM）来标注、清理和丰富文本数据集。