LoRA的相关内容 - 漫话开发者

2024-05-14 talkingdev

Text-Image组合与理解：InternLM-XComposer2视觉语言模型的突破

InternLM-XComposer2是一种在创建和理解复杂的文本-图像内容方面表现优异的视觉语言模型。该模型引入了一种名为Partial LoRA的新型方法，用以平衡视觉和文本的理解，其性能超越了现有的多模态内容创建和理解模型。通...

2024-03-11 talkingdev

上周，在小型GPU上训练大型模型取得了突破。这个配置展示了如何使用这些技术在消费级硬件上训练Mixtral。

2024-03-08 talkingdev

Answer AI发布了一款新的FSDP/QLoRA训练工具，可在消费级GPU上训练70B参数模型。该公司开源了代码，并使其易于本地运行或在runpod上运行。

2024-02-29 talkingdev

IR-QLoRA是一种新方法，它可以提高量化大型语言模型的准确性，使它们更适合在资源有限的设备上使用。量化是一种通过降低浮点精度来减少计算资源需求的技术。虽然这种方法可以大大减少模型的计算量和存储空间，但它也...

2024-02-23 talkingdev

Lorax是一款支持将多个LoRA模型热插拔到单个基础模型上的推理服务器。这意味着在支持广泛的模型调整范围的同时，RAM内存占用会大幅减少。

2024-02-23 talkingdev

Predibase发布了25个狭窄的任务特定LoRA，每个在特定任务上都能超越GPT-4。这些任务特定的LoRA是建立在Mistral 7B模型之上的。这再次证明了本地模型在精确任务上表现异常出色的能力。

2024-02-22 talkingdev

本文介绍了LoRA+，一种优于现有Low-Rank Adaptation (LoRA)方法的微调大模型的方法。LoRA+通过为过程中的关键部分使用不同的学习速率来实现更好的性能和更快的微调，而无需增加计算需求。

2024-02-21 talkingdev

控制向量(ControlVectors)是一种廉价的语义生成输出控制方法。它们的训练比LoRA更便宜，但仍然可以非常有效。这个控制向量库使得使用这种技术更加简单。控制向量库是由一群开发人员推出的，作为一项开源项目，它的代...