漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-12-07 talkingdev

使用扩散模型从单一视角生成3D图像

Zero123++是一个使用扩散原理从单个输入图像生成一致的多视图图像的模型。通过利用预训练的2D模型,Zero123++解决了纹理质量和对齐问题等挑战。

Read More
2023-12-07 talkingdev

DiffiT:基于扩散的视觉转换器生成高分辨率图像

该项目探索了视觉转换器在基于扩散的生成学习中的有效性,揭示了Diffusion Vision Transformers(DiffiT)。该模型将U形编码器-解码器架构与新型时变自注意模块相结合。DiffiT可以生成高分辨率的图像,具有非常好的...

Read More
2023-12-06 talkingdev

IMMA为文本转图模型提供保护

IMMA是一种新技术,可以为文本转图模型提供保护,以防止被恶意适应生成有害内容。IMMA是一种基于信息瓶颈原理的技术,可以将文本编码为低维向量,然后将其与图像编码结合起来,以生成所需的图像。此技术不仅可以防止...

Read More
2023-12-05 talkingdev

StyleGAN-嵌入式个性化图像生成技术

一种新的方法利用扩展的StyleGAN嵌入空间W+用于文本到图像扩散模型,提高了生成图像中的身份保留能力。这种技术可以为个性化的图像生成提供更多的可能性,更好地满足用户的需求。

Read More
2023-11-29 talkingdev

360度全景成像混合技术实现开源

研究人员已经设计出一种独特的圆形混合方法来解决创建无缝360度全景图像的长期难题。这种技术是他们从文本和单张图像生成全景图像的创新模型的关键特征。

Read More
2023-11-09 talkingdev

基于Transformer扩散模型的训练成本比基于UNet的模型便宜90%

PixArt是一种新的文本到图像模型,它使用T5文本编码、交叉注意力和扩散变压器,以比可比模型低得多的计算成本取得了出色的结果。这种新模型使用Transformer扩散模型,可以比使用UNet模型训练快90%。PixArt模型的训练...

Read More
2023-11-08 talkingdev

OpenAI开源其稳定扩散一致性解码器

OpenAI最近发布了用于稳定扩散的一致性解码器,这将极大地改善潜在扩散模型生成图像的性能。这是一个开源项目,可在GitHub上获得。随着这种技术的进步,我们可以期待AI在图像生成方面的更多突破。

Read More
2023-10-23 talkingdev

upsampling开源库实现图像生成模型数据质量提升

DALLE-3图像生成模型的质量提升的主要驱动力之一是改进后的数据质量。通过使用内部模型进行标题上采样来实现。这里提供了一个使用强大的开源模型进行实现的GitHub开源库。

Read More
2023-10-19 talkingdev

ChatGPT的浏览器Browse With Bing推出Beta版,DALL-E 3进入Beta版

ChatGPT的Browse With Bing现已退出Beta测试,DALL-E 3正在进行Beta测试。这是OpenAI最近的两个重要更新,Browse With Bing是一款由OpenAI推出的基于自然语言的浏览器,用户可以通过聊天的方式寻找信息,而DALL-E 3...

Read More
2023-10-16 talkingdev

minidalle3,提高LLMs的文本到图像生成技术

研究人员正在改进我们与文本到图像模型的交互方式,例如Midjourney和Stable Diffusion,这些模型目前需要复杂的提示才能生成图像。他们引入了“交互式文本到图像”,使人们可以自然地与大型语言模型进行交互,以获得更...

Read More
  1. Prev Page
  2. 8
  3. 9
  4. 10
  5. Next Page