图像模型的相关内容 - 漫话开发者

2024-03-07 talkingdev

MobileClip：快速文本和图像生成模型

MobileClip是一个快速的文本和图像模型，与OpenAI的原始CLIP模型性能相同，但运行速度提高了7倍。它可以在设备上用于各种视觉和语言任务。

2024-03-07 talkingdev

稳定扩散 3 通过其新颖的多模态扩散转换器架构，通过文本和图像的分别处理权重，提高了提示理解和排版，优于领先的文本到图像模型，为AI生成的视觉内容带来了进步。

2024-02-16 talkingdev

研究人员开发了一种基于文本提示进行图像编辑的独特方法。这种方法使用文本到图像模型和边界框生成器来识别需要编辑的区域，从而无需蒙版或草图即可进行更改。该方法可实现文本驱动的图像编辑，可以大大提高图像编辑...

2024-02-15 talkingdev

Stable Cascade模型是一种新的仅用于研究的文本到图像模型，其在美学、提示忠实度和文本质量方面优于SDXL。它是使用Würstchen架构进行训练的，并具有多步架构，使调整变得容易。该模型的稳定性能够有效地提高图像生...

2024-02-08 talkingdev

由于LAION等大规模数据集的删除，以及版权问题，使得训练大规模图像模型变得具有挑战性。但是，这项工作表明，使用3000万个全合成的图像可以训练出强大的CLIP模型。

2024-01-30 talkingdev

该项目提出了一种新颖的增强Transformer的方法，使用来自不同模态的无关数据，例如使用音频数据来改善图像模型。多模式路径独特地连接了两种不同模态的Transformer，使目标模态能够从另一种模态的优势中受益。

2024-01-22 talkingdev

生成式图像模型最受欢迎的用途之一是个性化风格的图像生成。历史上，这需要训练LoRA或使用DreamBooth。现在，通过使用ID嵌入，您可以在仅使用单张图像的情况下大大提高质量并降低计算成本。

2024-01-20 talkingdev

苹果公司发布了一篇关于用自回归损失预训练图像模型的论文。它测量了扩展行为，并发现像语言一样，这些大规模无监督的图像模型具有非常可预测的行为。这项技术为图像识别和计算机视觉领域的研究提供了新的思路和方法...