Zero123++是一个使用扩散原理从单个输入图像生成一致的多视图图像的模型。通过利用预训练的2D模型,Zero123++解决了纹理质量和对齐问题等挑战。
Read MoreMotionEditor是一种专为视频运动编辑而设计的扩散模型,巧妙地平衡了运动操作和原始内容保护。它引入了一种内容感知运动适配器和一个独特的双分支架构,注入注意力,使得编辑后的运动无缝集成,同时保持原始背景和主...
Read More现代大多数扩散模型都使用了注意力机制,但并非所有模型都如此。最近,对状态空间的兴趣浪潮已经传到了扩散模型中,这为理论加速和有趣的应用开辟了道路。扩散模型是一种机器学习模型,用于对自然界中的信号进行建模...
Read More一种新的方法利用扩展的StyleGAN嵌入空间W+用于文本到图像扩散模型,提高了生成图像中的身份保留能力。这种技术可以为个性化的图像生成提供更多的可能性,更好地满足用户的需求。
Read MoreDiffSLVA是一种创新的手语视频匿名化方法,可以在保留语言内容的同时进行隐私保护。该技术使用预训练的扩散模型和专门的面部表情模块,克服了以前的限制,不需要精确的姿势估计。
Read MoreStableVSR是一种新颖的视频超分辨率(VSR)方法,利用扩散模型和时间条件模块来提高放大视频的质量。与基于深度学习的方法相比,StableVSR可以更好地处理不同的噪声和失真情况,并且在不需要额外训练数据的情况下也...
Read More原始稳定扩散模型的创新之一是在扩散过程中使用较小的潜在空间。这意味着扩散不是发生在像素上,而是在某种压缩的图像表示上。本文深入探讨了一些解释SDXL潜在空间的方法。
Read More随着AlphaFold等人工智能技术的不断发展,科学研究进展的速度也在大幅提高。最近,一项研究开发出了RoseTTAFold All-Atom,这是一种神经网络技术,可以对蛋白质、药品、维生素、DNA和糖等广泛的分子进行建模。研究人...
Read More这项研究提出了3DStyle-Diffusion模型,这是一种用于对3D网格进行细节风格化的新方法,整合了2D扩散模型以增加对外观和几何形状的控制。它通过首先使用隐式MLP网络将3D网格的纹理参数化为反射和照明,然后使用预训练...
Read MorePixArt是一种新的文本到图像模型,它使用T5文本编码、交叉注意力和扩散变压器,以比可比模型低得多的计算成本取得了出色的结果。这种新模型使用Transformer扩散模型,可以比使用UNet模型训练快90%。PixArt模型的训练...
Read More