自然语言处理的相关内容 - 漫话开发者

2023-10-17 talkingdev

Libgen转换为txt的文本数据集开源

Libgen是许多封闭模型中的数据集。虽然这个数据集的商业使用合法性存在争议，但研究人员仍在使用它来更好地了解语言模型训练数据质量。这个开源的GitHub代码库旨在将Libgen转换为txt文本文档的形式，以便更方便地进...

2023-10-16 talkingdev

最近，一项研究发现，使用迭代重新嵌入和将嵌入反演视为条件生成问题，使攻击者仅凭密集向量就能成功重现92％的嵌入文本，这引起了隐私问题的关注。这意味着虽然文本嵌入被广泛用于自然语言处理和机器学习任务，但其...

2023-10-13 talkingdev

研究人员发现，将生成句子的模型所需的思路或“概念”以一定顺序呈现给它们，将会影响生成的句子质量。在测试的各个程序中，BART-large在给定特定顺序的思路后表现最佳，但令人惊讶的是，更大的并不总是更好。

2023-10-13 talkingdev

本文深入探究了当前围绕多模态语言模型的研究活动。随着人工智能和自然语言处理领域的不断发展，多模态模型在语言理解、生成和预测等方面已经取得了很大的进展。本文介绍了多模态模型的基本原理，以及当前最先进的多...

2023-10-03 talkingdev

人工智能（AI）与硬件的结合，将推动虚拟现实（VR）和增强现实（AR）领域的开创性发展。以下是这些领域最新的新闻动态。AI是在计算机系统中模拟人类智能的过程，其中包括学习（获取和使用知识）、推理（找出与特定目...

2023-10-03 talkingdev

近年来，Microsoft的UniLM团队在自然语言处理领域取得了一些显著的成果。他们最近推出的Kosmos模型套件已经进军图像领域。这次的特定实例是用于从图像读取文本密集的文件，并为该文件生成文本或标记。这与最近Meta为...

2023-09-27 talkingdev

GitHub上有一位名叫Useful Annotated Papers的用户创建了一个代码仓库，这个仓库集合了许多来自各领域的标注论文，内容丰富而有深度。这些标注论文的内容涉及广泛，包括但不限于人工智能、机器学习、深度学习、自然...

2023-09-26 talkingdev

最近，GitHub Repo上的一个新项目Odin引起了业界的广泛关注。Odin的主要功能是利用GPT-4技术从用户的数据中生成知识图谱。知识图谱是一种以图形方式表示知识的方法，能够帮助用户更好地理解数据，并从中提取有价值的...