漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-03-11 talkingdev

多视角图像生成技术 ViewFusion

近日,研究人员提出了一种名为 ViewFusion 的新算法,旨在改善扩散模型从新的视角生成图像的方式,确保图像在不同视角下保持一致。传统的扩散模型在处理多视角图像时,往往会产生不一致性,导致图像质量下降。ViewFu...

Read More
2024-02-14 talkingdev

苹果发布多模态LLM指导下的图像编辑代码

苹果发布了一款新的代码,使用多模态语言模型来改进人类提供的自然语言图像编辑。这个新的代码的核心思想是使用大型语言模型来指导用户对图像进行编辑,从而提高编辑的质量和效率。该代码的具体实现是将图像与自然语...

Read More
2024-02-06 talkingdev

AnimateLCM-高保真视频生成技术实现高质量视频创作

AnimateLCM是一种新的方法,可以通过将学习过程分成两部分来快速创建高质量的视频和改进现有的视频扩散模型。AnimateLCM的第一步是利用低复杂度的运动补偿技术来生成一个低质量的视频序列。 然后,利用一个基于自适...

Read More
2024-01-29 talkingdev

论文:基于Transformer的场景图生成技术问世

研究人员开发出了一种新方法来创建场景图,使该过程更快速和高效。他们基于Transformer的技术专注于改进模型对图像中不同元素的理解和连接方式,从而提高了模型在挑战性任务上的性能。

Read More
2024-01-24 talkingdev

交互式控制文本生成技术革新,多模态语言模型中引入“提示高亮器”

研究人员引入了“提示高亮器”方法,它革新了多模态语言模型中的文本生成技术,使用户能够突出提示的某些部分,从而更好地控制生成的文本。这种方法提供了一种更加灵活、直观和有效的交互式控制方式,使得文本生成的结...

Read More
2024-01-12 talkingdev

单个非自回归Transformer实现掩码音频生成

大多数音频生成技术使用扩散或自回归模型来生成声音。而这项研究并不使用多步骤或复杂的Transformer。相反,它使用了一个掩码语言模型来生成音频令牌。

Read More
2023-12-25 talkingdev

论文:采用序列感知损失函数的图像生成技术

研究人员开发了一种“序列感知”损失函数,以改进去噪概率模型(DPM),解决了图像生成中时间步长相关性的问题。这种新方法不仅提供了更紧凑的损失估计,而且在诸如CIFAR10和CelebA等数据集上显示出显著的图像质量改进,...

Read More
2023-12-22 talkingdev

论文:Diff-Text,无需训练的多语言场景文本生成技术

Diff-Text是一种新的无需训练的框架,可用于创建任何语言的具有文本的逼真图像。它通过使用手绘图像作为先验,增强了稳定扩散模型的多语言能力。

Read More
  1. Prev Page
  2. 8
  3. 9
  4. 10
  5. Next Page