模型训练的相关内容 - 漫话开发者

2023-09-25 talkingdev

一项新的研究结果对语言模型的理解产生了挑战

语言模型在训练过程中，通常会遇到一种情况，即当模型训练的内容是“A是B”时，它并不能自动推断出“B是A”。这一发现对当前的语言模型（LLMs）提出了挑战和质疑，因为我们通常会期待模型能够自动推断出这样的逻辑关系。...

2023-09-21 talkingdev

这项研究的重点是使已经擅长理解和生成文本的大型语言模型，在回答医学问题方面表现得更好。大型语言模型（LLMs）已经在很多领域包括医学领域显示出了巨大的潜力，然而，尽管如此，它们在理解和回答具体的医学问题方...

2023-09-19 talkingdev

通常情况下，语言模型的输入和输出嵌入层是捆绑在一起的。然而，如果您将输入嵌入与模型内部的其他嵌入捆绑在一起，并使用对比损失，您可以在实际运行时间和最终基准准确度上获得显著改善的性能。这种方法的关键在于...

2023-09-14 talkingdev

尽管像MiniGPT-4这样的大型模型在理解图像方面表现出色，但它们在处理工业环境中的详细异常方面却存在困难。而新型解决方案AnomalyGPT，通过对模拟异常图像及其描述进行训练，可以检测出工业故障，无需手动调整。这...

2023-09-12 talkingdev

Nvidia在人工智能领域的领先地位远非稳固。它目前的优势主要是因为几乎没有人在运行大型机器学习应用程序，竞争对手还没有成熟，研究人员拥有购买力，以及关注于模型训练方面。但在不久的将来，使用CPU进行推理将会...

2023-09-07 talkingdev

据报道，苹果正在投入数百万美元的人工智能产品研究，旨在创建一款能够自动化涉及多个步骤的任务的Siri。大部分预算都用于模型训练，这需要大量昂贵的硬件。该公司已经研究了四年的大型语言模型，但尚不清楚它在多年...

2023-09-06 talkingdev

这是一个全新的、闪电般快速的代码生成模型。该模型是从零开始，基于1.2万亿个半代码半语言数据进行训练的。这一模型的出现，将为人工智能模型开发带来革新。通过大规模的参数训练，该模型已经在人类评估（HumanEval...

2023-09-06 talkingdev

近日，人工智能科技公司Hugging Face发布了一项新的服务，该服务使得用户无需处理复杂的内部过程，仅需一键，即可对模型进行训练。这项创新型服务意味着，用户可以省去在深度学习项目中进行模型训练时，所需投入的大...