预训练的相关内容 - 漫话开发者

2024-03-19 talkingdev

16种不同的分词器预训练同一模型揭秘

现代语言模型的一个奇特事实是，在训练模型之前，我们首先训练分词器。另一个奇怪的事实是，在大规模场景下，词汇量大小似乎并不是那么重要。本文将深入探讨这两种现象，分析分词器在模型预训练中的角色和影响，以及...

2024-03-15 talkingdev

近日，一项名为ViT-CoMer的神经网络模型问世，增强了Vision Transformers（ViT）在密集预测任务中的表现，而无需预训练。这项研究由卡内基梅隆大学的学者领导，他们在GitHub上公开了相关代码和数据集。ViT-CoMer能够...

2024-03-14 talkingdev

MoAI是一种新型的大型语言和视觉模型，它通过整合专门的计算机视觉任务的辅助视觉信息来增强当前模型。该模型在 GitHub 上发布，旨在改善自然语言处理和计算机视觉任务之间的互动。MoAI使用了一种新的训练方法，可以...

2024-03-07 talkingdev

一家名为LLMify的初创公司正在推出一种新的方法来训练语言模型，他们将在没有预训练模型的情况下从零开始培训LLMs。该公司的创始人表示，这种方法可以提高模型的准确性和适用性，并加快训练时间。该公司已经引起了一...

2024-02-28 talkingdev

Axolotl是一款用于Fine-tuning语言模型的强大库。最近，开发者推出了Lazy Axolotl，一款Colab Notebook，它可以帮助用户轻松地进行Fine-tuning操作。Lazy Axolotl提供了丰富的预训练模型和Fine-tuning脚本，用户只需...

2024-02-22 talkingdev

谷歌推出了一系列新的AI语言模型Gemma，这些模型是基于类似Gemini的技术构建的免费开源模型。Gemma模型可在桌面或笔记本电脑上本地运行，有两个模型，一个有20亿个参数，另一个有70亿个参数。每个模型都有经过预训练...

2024-02-14 talkingdev

Lag-Llama是一种基于Transformer的模型，可在零样本和少样本泛化方面表现出色，并在广泛的时间序列数据上进行了预训练。通过对少量数据进行微调，它超越了现有深度学习方法的最新性能，标志着时间序列分析基础模型的...

2024-02-13 talkingdev

Phidata是一个使用函数调用构建AI助手的工具包。它不仅可以帮助开发者更快地构建AI助手，还可以通过模块化设计轻松扩展其功能。Phidata基于Python语言，支持各种功能，包括自然语言处理、语音识别和图像识别。它还提...