针对图像-文本训练中使用的视觉基础模型,研究人员提出了一种名为ViSFT的新方法,以提高其性能。ViSFT使用类似于语言模型中的微调的两阶段过程来增强视觉基础模型。首先,该模型使用大规模的无监督预训练来学习图像...
Read MoreHuggingFace发布了Datatrove,这是一个用于过滤大型文本数据集的库。它具有许多有用的原语和用于文本过滤的完整并行管道。可在C4中使用Gopher质量过滤器的示例。
Read MoreGitHub最近推出了一款图像字幕软件,能够帮助用户为图像添加字幕以便更好地进行AI训练。这款软件非常轻巧,易于使用,可以快速准确地为图像添加字幕,提高AI的训练效率。该软件支持多种格式的图像文件,包括PNG、JPE...
Read More机器学习工程开源书籍发布,该项目是一个开放的方法论集合,旨在帮助成功训练大型语言模型和多模态模型。该材料适用于LLM/VLM培训工程师和运营人员。书籍包含大量脚本和复制粘贴命令,以使读者能够快速解决问题。该...
Read MoreMeta最近推出了一系列令人难以置信的音乐和声音生成模型,并发布了推理代码。这些模型是通过机器学习训练的,可以生成高质量的音乐和声音效果。该公司表示,这些模型可以用于广泛的应用场景,包括游戏声音、虚拟现实...
Read MoreTiny Narrations是一个基于最受欢迎的Tiny Stories数据集的文本转语音版本。它使用SF Compute H100集群上的XTTS2。这个系统可以将短小精悍的故事转化为音频文件,方便用户在不同场景下收听。这个系统的优点是使用了...
Read More生成式图像模型最受欢迎的用途之一是个性化风格的图像生成。历史上,这需要训练LoRA或使用DreamBooth。现在,通过使用ID嵌入,您可以在仅使用单张图像的情况下大大提高质量并降低计算成本。
Read More近日,GitHub开源了一项名为FILCO的技术,旨在通过上下文过滤来提高人工智能系统的性能,特别是在回答问题和核查事实等领域。该技术的工作原理是选择最有用的信息,并训练模型来过滤掉不相关的细节。相比传统的人工...
Read More近日,GitHub上推出了一款名为Privy的代码仓库,该代码仓库注重用户隐私保护,是一款面向隐私保护的编码助手。该工具可以在编写代码的同时,避免将敏感信息提交到代码库中,从而保护用户的隐私。Privy采用类似于Git...
Read More近日,一项名为UV-SAM的新技术通过GitHub仓库公开,该技术是对视觉基础模型和Segment Anything模型的改进,利用卫星图像可以准确识别出城市村庄的边界。与传统的现场调查相比,UV-SAM提供了一种高效的替代方案,结合...
Read More