漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-10-24 talkingdev

自动化生成fine-tune.jsonl文件

调整语言模型需要按特定格式创建训练数据。这通常是令人沮丧和缓慢的过程。本文探讨了自动化该过程的简单方法。 深度学习模型的表现受到其训练数据的质量的影响。因此,对于特定任务,调整语言模型的能力非常重要。...

Read More
2023-10-17 talkingdev

Libgen转换为txt的文本数据集开源

Libgen是许多封闭模型中的数据集。虽然这个数据集的商业使用合法性存在争议,但研究人员仍在使用它来更好地了解语言模型训练数据质量。这个开源的GitHub代码库旨在将Libgen转换为txt文本文档的形式,以便更方便地进...

Read More
2023-10-17 talkingdev

TabLiB 800B发布,推动大规模数据模型发展

近日,TabLiB 800B发布,这是目前最大的公开表格数据集,包括了6.27亿张表格和8670亿个上下文信息的令牌。这个数据集的发布旨在鼓励社区构建更好地理解表格数据的大型数据模型。此外,该数据集还包含了来自不同领域...

Read More
2023-10-11 talkingdev

论文:提升大型语言模型(LLMs)的数学推理能力

研究人员正在探究数据增强技术对提高大型语言模型(LLMs)数学推理能力的影响。他们通过增强现有数据集中的查询,创建了一个新的数据集AugGSM8K,并开发了一个名为MuggleMath的模型。数据增强技术能有效提升模型的数...

Read More
2023-10-04 talkingdev

数据是否仍然是护城河?AI生成技术重新塑造数据价值观

AI生成技术正在重塑我们对大量数据收集的传统价值观。大型语言模型可以通过最小化的数据进行微调,甚至可以生成合成数据集,这使得专有数据的独特性和重要性可能正在逐渐减弱。在过去,我们通常认为数据量的大小和独...

Read More
2023-10-02 talkingdev

SapientML:自动化机器学习技术的新里程碑

SapientML是一个自动化机器学习(AutoML)技术,它能从已有的数据集以及人类编写的管道学习,并针对新数据集的预测任务有效地生成高质量的管道。这个技术的核心在于,它能够理解和学习人的编程风格和思维方式,从而...

Read More
2023-09-26 talkingdev

通过被动摄像头增强深度估计的研究

这项研究提出了一种在被动摄像头中模拟主动立体感的方法,而无需使用物理图案投影仪。研究人员通过利用外部传感器的深度数据虚拟叠加图案,克服了传统设置的局限性。这种方法在各种数据集上都增强了立体算法和深度学...

Read More
2023-09-21 talkingdev

理解手部动作的更佳途径:RenderIH与TransHand的全新应用

最近的研究引入了RenderIH,这是一个包含各种手部位置的超现实图像的庞大收藏,解决了旧数据集过于简单的问题。同时,研究还呈现了TransHand,这是一个能够非常精确读取这些手部位置的新工具。RenderIH的引入,不仅...

Read More
2023-09-20 talkingdev

CulturaX发布6T多语言数据标记,助推多语言模型发展

在谷歌的新数据集发布后,CulturaX紧随其后,推出了新的数据集。这是一个清洁整理过的多语言数据标记集,总量达到了6T。这一数据集的发布,将为多语言语言模型的进一步发展提供巨大的助力。谷歌和CulturaX的这两次数...

Read More
2023-09-15 talkingdev

开源新数据集助力识别伪造名人照片

DeepFakeFace (DFF) 是一个由先进技术生成的伪造名人照片的集合,旨在帮助我们更好地区分真实照片和伪造的照片。这个数据集集合了大量的伪造名人照片,这些照片的制作都运用了尖端的科技,如深度学习和人工智能等,...

Read More
  1. Prev Page
  2. 23
  3. 24
  4. 25
  5. Next Page