扩散模型的相关内容 - 漫话开发者

2024-02-28 talkingdev

FlowMDM实现长时间人体动作生成

FlowMDM是一种新的模型，用于从文本描述生成长时间连续的人体运动序列。这种首创的扩散模型使用混合位置编码进行逼真的运动创建，无需额外的去噪步骤，在关键数据集上表现出卓越的准确性和逼真度。

2024-02-23 talkingdev

最近，一种名为多视角扩散++的扩散模型引起了人们的注意。该模型可以生成一个对象的多个视图，然后将它们拼接在一起，形成一个引人入胜的3D版本。这个模型的基本原理是将对象分解成许多微小的部分，然后在每个部分上...

2024-02-19 talkingdev

研究人员开发了一种新的视频压缩方法，使用扩散模型生成高质量的视频帧，同时保持低数据速率。该方法将视频压缩与机器学习相结合，能够在保持视频质量的同时减少数据传输的成本。研究人员在测试中发现，这种方法能够...

2024-02-06 talkingdev

AnimateLCM是一种新的方法，可以通过将学习过程分成两部分来快速创建高质量的视频和改进现有的视频扩散模型。AnimateLCM的第一步是利用低复杂度的运动补偿技术来生成一个低质量的视频序列。然后，利用一个基于自适...

2024-02-05 talkingdev

谷歌展示了一种潜在的一致性扩散模型，并进行了一些架构上的改变。该模型在移动设备上进行了训练，具有亚秒级的生成时间。

2024-02-02 talkingdev

本文介绍了一个基于场景和手写文本的基准测试和两个数据集。利用原始、损坏和辅助图像，全局结构引导扩散模型（GSDM）利用文本结构有效恢复清晰文本。该技术在识别准确度和图像质量方面显示出显著的改进。

2024-01-31 talkingdev

研究人员通过在训练手部注释图像中添加三个额外通道，改善了生成模型（例如GAN和扩散模型）创建逼真手部图像的能力。这种方法利用了手部形态的先验知识，可以应用于许多手部相关的任务，例如手语翻译和手势识别。此...

2024-01-31 talkingdev

CreativeSynth是一种艺术图像编辑方法，通过无缝集成文本和图像输入来实现。其扩散模型配备了定制化的注意机制，能够精确地处理风格和内容，同时保留原始艺术作品的本质。为艺术家和设计师提供了一个全新的创作维度...