模型的相关内容 - 漫话开发者

2023-10-31 talkingdev

HF团队成功复现OpenAI的第一个RLHF代码库

HuggingFace团队成功复现了OpenAI的第一个RLHF代码库，该代码库于2019年发布，是引入了一些最初的RLHF（强化学习与人类因素）想法。这个代码库被称为“Generative Pretraining Transformer（GPT）”。通过在计算机上训...

2023-10-31 talkingdev

MosaicML发布了一篇关于使用AMD GPU进行大型语言模型训练的文章。该公司在本文中介绍了他们的最新研究结果，使用AMD Radeon Instinct MI100 GPU对GPT-2、GPT-3和T5等大型语言模型进行了训练。结果显示，使用AMD GPU...

2023-10-31 talkingdev

微软研究小组在一篇论文中提到，GPT-3.5-turbo（ChatGPT背后的模型）是一个具有20B参数的模型，该小组研究扩散模型用于代码。据称原始模型的参数为175B，因此可能进行了重新训练或蒸馏。

2023-10-30 talkingdev

在最新的研究中，科学家们介绍了一种名为LLM-FP4的新型方法，该方法能够通过在训练后将大型语言模型的权重和活动转换为4位浮点值，实现对其进行压缩。这种技术的创新之处在于，它不仅能够显著减少模型的存储需求，还...

2023-10-27 talkingdev

研究介绍了RGM（Robust Generalist Matching）,这是一种专为图像中的稀疏和密集像素匹配而设计的深度学习模型。该方法利用了一种独特的级联GRU模块和一个新的大规模数据集。该模型可以应用于多种场景，具有广泛的适...

2023-10-27 talkingdev

近日，一项名为‘Real-Time Depth Estimation for Underwater Vehicles’的研究成果在GitHub上发布。该研究提出了一种针对水下车辆的模型，可以通过结合稀疏深度细节从单个图像中实时估计深度。该模型是通过深度学习框...

2023-10-27 talkingdev

本研究介绍了LLM-FP4，这是一种新的方法，通过在训练后将大型语言模型的权重和操作转换为4位浮点值来压缩它们。近年来，由于NLP任务的快速发展，语言模型的大小和计算需求不断增加，这给模型的部署和使用带来了很多...

2023-10-27 talkingdev

最受欢迎的扩散模型，如稳定扩散，已经在各种数据上进行了训练，但其中很多数据受到不同的版权限制。MosaicML提出的这种新模型纯粹基于创意共享数据进行训练，其性能与SD2相当，并且只需要训练数据的一小部分。