模型的相关内容 - 漫话开发者

2024-01-24 talkingdev

我的AI时间表再次加速

本文作者根据模型扩展的进展修改了其人工智能时间表预测。他们现在估计，到2028年有10%的机会实现人工智能通用智能，并且到2045年有50%的机会。这些变化归因于大型语言模型的有效性以及多个智能能力可能会在规模上出...

2024-01-24 talkingdev

Depth Anything是一种新的单目深度估计方法，它依赖于约6200万张图像的大规模数据集来提高其精度。通过使用数据增强和预训练编码器的辅助监督，该模型实现了令人印象深刻的泛化能力，并在深度估计方面树立了新的标准...

2024-01-24 talkingdev

最近，一种名为DiverseEvol的新方法在GitHub上发布，它可以让AI模型选择自己的训练数据，使其在不需要人工或其他先进AI系统的帮助下变得更好。DiverseEvol方法包括两个步骤：第一步是从数据集中选择用于训练模型的样...

2024-01-24 talkingdev

本项目探讨了自我奖励语言模型，其中模型充当自己的评判者以改善训练。通过使用这种方法，研究人员能够提高模型的性能，超越像GPT-4这样的其他系统。

2024-01-24 talkingdev

LoRA是一种低秩适配器，可让您仅微调语言模型中的少量参数。它们可以显着改善和改变这些模型的性能。

2024-01-24 talkingdev

Stability AI 最新发布的 Stable LM 2 1.6B 是一个紧凑但功能强大的语言模型，支持七种语言。它的设计目标是超越其他 20 亿参数的模型，包括它自己之前的 3B 模型。由于其更小的体积，它旨在降低开发者的门槛，提供...

2024-01-23 talkingdev

针对图像-文本训练中使用的视觉基础模型，研究人员提出了一种名为ViSFT的新方法，以提高其性能。ViSFT使用类似于语言模型中的微调的两阶段过程来增强视觉基础模型。首先，该模型使用大规模的无监督预训练来学习图像...

2024-01-23 talkingdev

近日，HuggingFace发布了一个名为Nanotron的小型而强大的库，用于训练具有3D并行性的模型。这意味着它将数据、模型和模型中的层/张量分割开来。前两种并行性在PyTorch等库中得到了很好的支持。然而，将模型张量分割...