漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-02-15 talkingdev

Stable与Wurstchen发布新的文本到图像模型

Stable Cascade模型是一种新的仅用于研究的文本到图像模型,其在美学、提示忠实度和文本质量方面优于SDXL。它是使用Würstchen架构进行训练的,并具有多步架构,使调整变得容易。该模型的稳定性能够有效地提高图像生...

Read More
2024-02-12 talkingdev

《口袋妖怪Go》创始人支持多模态AR眼镜获新轮融资

新加坡Brilliant Labs推出了一款名为Frame的轻量级AR眼镜,配备了一款名为Noa的多模态AI助手,可以通过集成的AI模型如GPT-4和稳定扩散执行视觉处理、图像生成等多项任务,获得了多位创业投资人的青睐。据悉,这款眼...

Read More
2024-02-05 talkingdev

Bard推出图像生成服务,支持多语言

Bard宣布推出新的图像生成服务,支持多种语言,包括英语、法语、德语、西班牙语、意大利语和葡萄牙语。该服务可以帮助用户轻松地生成高质量的图像,用户可以选择不同的样式和主题来定制自己的图片。Bard表示,该服务...

Read More
2024-01-31 talkingdev

论文:AI模型手部图像生成能力得到优化

研究人员通过在训练手部注释图像中添加三个额外通道,改善了生成模型(例如GAN和扩散模型)创建逼真手部图像的能力。这种方法利用了手部形态的先验知识,可以应用于许多手部相关的任务,例如手语翻译和手势识别。此...

Read More
2024-01-25 talkingdev

开源RPG框架,改进文本到图像生成质量

最近,由阿里达摩院、南京邮电大学、南京大学等机构合作开发的RPG框架在GitHub上开源。该框架采用“Recaption、Plan和Generate”的方法来改进文本到图像生成,将复杂的图像创建任务分解为更简单的任务,从而在处理多个...

Read More
2024-01-24 talkingdev

MM-Interleaved模型开源,可实现图文数据生成

近日,GitHub开源了MM-Interleaved模型,该模型在处理和生成交替的图文数据方面表现出色。MM-Interleaved模型能够根据输入的文本描述生成对应的图像,同时也可以从图像中提取文本。该模型使用了条件生成对抗网络(Co...

Read More
2024-01-22 talkingdev

腾讯开源PhotoMaker生成风格化人像

生成式图像模型最受欢迎的用途之一是个性化风格的图像生成。历史上,这需要训练LoRA或使用DreamBooth。现在,通过使用ID嵌入,您可以在仅使用单张图像的情况下大大提高质量并降低计算成本。

Read More
2024-01-20 talkingdev

CaC开源-将3D物体放置在图像生成

Compose and Conquer公司推出了一种条件扩散模型,该模型在生成的图像中的三维空间中放置物体方面表现出色。该模型可用于生成逼真的图像,例如虚拟世界中的景观和人物。条件扩散模型的优点在于其可以对图像进行分层...

Read More
2024-01-16 talkingdev

论文:采用潜在一致性模型实现快速可控图像生成

PixArt一直是流行的Stable Diffusion图像生成模型的并行研究方向。本研究采用潜在一致性模型实现更快的生成速度,并采用ControlNet样式提示实现更好的控制。

Read More
2024-01-08 talkingdev

HuggingFace与Stability AI合作开源复现MUSE

MUSE是一种使用Transformers的掩蔽图像生成模型。HuggingFace和Stability AI已经合作开源复现该模型,并发布了训练代码、模型检查点和论文。虽然这些模型的训练时间不如一些最好的图像扩散模型长,但它们显示出了很...

Read More
  1. Prev Page
  2. 5
  3. 6
  4. 7
  5. Next Page