漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-01-22 talkingdev

腾讯开源PhotoMaker生成风格化人像

生成式图像模型最受欢迎的用途之一是个性化风格的图像生成。历史上,这需要训练LoRA或使用DreamBooth。现在,通过使用ID嵌入,您可以在仅使用单张图像的情况下大大提高质量并降低计算成本。

Read More
2024-01-20 talkingdev

苹果发布大型图像模型预训练论文

苹果公司发布了一篇关于用自回归损失预训练图像模型的论文。它测量了扩展行为,并发现像语言一样,这些大规模无监督的图像模型具有非常可预测的行为。这项技术为图像识别和计算机视觉领域的研究提供了新的思路和方法...

Read More
2024-01-16 talkingdev

Prompt-Aligned:开源图像个性化技术大热

Dreambooth是目前最好的个性化图像模型的方法。Prompt对齐技术显著提高了对Prompt的遵循度,并且具有组合性。

Read More
2023-12-15 talkingdev

Google推出Imagen2,提供文本和标志生成功能

Google推出了Imagen 2,这是一种增强的AI图像模型,可供经批准的Google Cloud Vertex AI用户使用,提供文本渲染,标志以及多语言翻译等新功能。Imagen 2可以通过Google Cloud的AutoML API和Vision API实现。该模型使...

Read More
2023-12-11 talkingdev

Kandinsky3.0:升级版文本转图像技术,实现更高质量、真实感的图像生成

Kandinsky 3.0是一种文本转图像模型,它可以从文本中生成更加真实的图像。Kandinsky 3.0采用了最新的生成对抗网络(GAN)模型,通过学习图像语义和语法,从而生成更加逼真、高质量的图像。该技术的应用将会在电影、...

Read More
2023-12-06 talkingdev

DMP开源,可提升AI图像预测精度

Diffusion Models as Prior (DMP)是一种新的方法,它在AI生成的图像中提高了语义预测的准确性。该创新性方法巧妙地将预先训练的文本到图像模型应用于各种任务,例如3D属性估计和语义分割,在有限的训练数据下表现优...

Read More
2023-11-09 talkingdev

基于Transformer扩散模型的训练成本比基于UNet的模型便宜90%

PixArt是一种新的文本到图像模型,它使用T5文本编码、交叉注意力和扩散变压器,以比可比模型低得多的计算成本取得了出色的结果。这种新模型使用Transformer扩散模型,可以比使用UNet模型训练快90%。PixArt模型的训练...

Read More
2023-10-26 talkingdev

开源文本图像模型SDXL体积缩小50%、速度提升60%

研究人员发现,当前领先的开源文本图像模型SDXL在推理时间上有了显著的加速,其速度提升了60%,同时体积缩小了50%。研究人员声称,在使用中,图像质量只有轻微的降低。

Read More
  1. Prev Page
  2. 3
  3. 4
  4. 5
  5. Next Page