漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-10-17 talkingdev

Libgen转换为txt的文本数据集开源

Libgen是许多封闭模型中的数据集。虽然这个数据集的商业使用合法性存在争议,但研究人员仍在使用它来更好地了解语言模型训练数据质量。这个开源的GitHub代码库旨在将Libgen转换为txt文本文档的形式,以便更方便地进...

Read More
2023-08-09 talkingdev

Agentflow:开源LLM驱动工作流工具

Agentflow是一个旨在为用户提供创建和执行由大语言模型驱动的工作流的强大但易用的工具。它是以开源形式在GitHub上发布的一个项目,旨在通过复杂的工作流程来增强大语言模型的使用。这个工具的主要优势在于,用户无...

Read More
2023-07-28 talkingdev

推出Tidepool:面向AI应用的产品分析工具

AI基于文本的接口为我们与软件交互开辟了一种全新的方式,但是在非结构化文本中寻找洞察力却十分困难。Tidepool就是为解决这一问题而生,它能在用户的文本交互中找出模式,帮助你做出更好的产品决策。AI在许多领域已...

Read More
2023-06-27 talkingdev

Kor:利用LLMs从文本中提取结构化数据

Kor是一种新的技术,它利用LLMs(Language Learning Models)从文本中提取结构化数据。LLMs是一种能够理解和处理自然语言的模型,它们可以对文本进行深度分析,找出其中的关键信息和结构。Kor通过使用LLMs,可以将文...

Read More
2023-06-21 talkingdev

需要去重大量数据吗?

AI模型的训练数据质量对于获得良好性能非常重要。在代码模型中,数据去重往往非常重要。对于文本而言,目前尚不清楚它是否同样重要。然而,无论如何,本博客介绍了用于去重文本样式数据的技术。

Read More
2023-06-21 talkingdev

Autolabel:自动标注工具开源

Autolabel是一个Python库,可以使用你选择的任何大型语言模型(LLM)来标注、清理和丰富文本数据集。

Read More
2023-06-16 talkingdev

Meta AI首席科学家表示 AI 目前还不如狗聪明

Meta AI首席科学家Yann LeCun表示,像ChatGPT这样的当前AI系统远远没有达到人类水平的智能水平,将它们与狗的能力相提并论。在Viva Tech大会上的一次讨论中,LeCun强调,AI对文本数据之外的真实世界现象的缺乏理解是...

Read More
2023-06-09 talkingdev

中文视频理解领域的重量级数据集发布(GitHub仓库)

近日,一份论文发布了有关优酷视频数据集Youku-mPLUG的介绍,这是目前公开的最大中文视频-文本数据集。该数据集由来自视频共享平台Youku的一千万个精选视频-文本对组成。在研究人员的努力下,借助这个数据集和创新的...

Read More
  1. Prev Page
  2. 3
  3. 4
  4. 5
  5. Next Page