模型的相关内容 - 漫话开发者

2023-10-31 talkingdev

AMD发布第二轮训练，为大型语言模型训练提供更强的支持

MosaicML发布了一篇关于使用AMD GPU进行大型语言模型训练的文章。该公司在本文中介绍了他们的最新研究结果，使用AMD Radeon Instinct MI100 GPU对GPT-2、GPT-3和T5等大型语言模型进行了训练。结果显示，使用AMD GPU...

2023-10-31 talkingdev

微软研究小组在一篇论文中提到，GPT-3.5-turbo（ChatGPT背后的模型）是一个具有20B参数的模型，该小组研究扩散模型用于代码。据称原始模型的参数为175B，因此可能进行了重新训练或蒸馏。

2023-10-30 talkingdev

在最新的研究中，科学家们介绍了一种名为LLM-FP4的新型方法，该方法能够通过在训练后将大型语言模型的权重和活动转换为4位浮点值，实现对其进行压缩。这种技术的创新之处在于，它不仅能够显著减少模型的存储需求，还...

2023-10-27 talkingdev

研究介绍了RGM（Robust Generalist Matching）,这是一种专为图像中的稀疏和密集像素匹配而设计的深度学习模型。该方法利用了一种独特的级联GRU模块和一个新的大规模数据集。该模型可以应用于多种场景，具有广泛的适...

2023-10-27 talkingdev

近日，一项名为‘Real-Time Depth Estimation for Underwater Vehicles’的研究成果在GitHub上发布。该研究提出了一种针对水下车辆的模型，可以通过结合稀疏深度细节从单个图像中实时估计深度。该模型是通过深度学习框...

2023-10-27 talkingdev

本研究介绍了LLM-FP4，这是一种新的方法，通过在训练后将大型语言模型的权重和操作转换为4位浮点值来压缩它们。近年来，由于NLP任务的快速发展，语言模型的大小和计算需求不断增加，这给模型的部署和使用带来了很多...

2023-10-27 talkingdev

最受欢迎的扩散模型，如稳定扩散，已经在各种数据上进行了训练，但其中很多数据受到不同的版权限制。MosaicML提出的这种新模型纯粹基于创意共享数据进行训练，其性能与SD2相当，并且只需要训练数据的一小部分。

2023-10-27 talkingdev

本文研究了大型多模型GPT-4V在各种光学字符识别（OCR）任务中的表现，包括读取场景和手写文本，理解复杂的文档结构等。