漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-12-08 talkingdev

StableFast开源,更快的Diffusers推理引擎

Stable Fast是HuggingFace扩散模型的推理引擎,通过它可以进行快速的Diffusers推理。该推理引擎在多种硬件上实现了出色的性能,包括CPU和GPU。此外,Stable Fast还兼容多个框架,包括PyTorch和TensorFlow。在GitHub...

Read More
2023-12-08 talkingdev

论文:使用扩散模型实现3D物体检测

研究人员开发了Diffusion-SS3D,这是一种改进半监督3D物体检测的新方法,使用扩散模型添加噪声到3D空间中的物体大小和类别标签分布,然后使用扩散模型去噪和生成更好的边界框输出。

Read More
2023-12-07 talkingdev

使用扩散模型从单一视角生成3D图像

Zero123++是一个使用扩散原理从单个输入图像生成一致的多视图图像的模型。通过利用预训练的2D模型,Zero123++解决了纹理质量和对齐问题等挑战。

Read More
2023-12-06 talkingdev

MotionEditor-新扩散模型可实现动效视频编辑

MotionEditor是一种专为视频运动编辑而设计的扩散模型,巧妙地平衡了运动操作和原始内容保护。它引入了一种内容感知运动适配器和一个独特的双分支架构,注入注意力,使得编辑后的运动无缝集成,同时保持原始背景和主...

Read More
2023-12-05 talkingdev

论文:无注意力的扩散模型

现代大多数扩散模型都使用了注意力机制,但并非所有模型都如此。最近,对状态空间的兴趣浪潮已经传到了扩散模型中,这为理论加速和有趣的应用开辟了道路。扩散模型是一种机器学习模型,用于对自然界中的信号进行建模...

Read More
2023-12-05 talkingdev

StyleGAN-嵌入式个性化图像生成技术

一种新的方法利用扩展的StyleGAN嵌入空间W+用于文本到图像扩散模型,提高了生成图像中的身份保留能力。这种技术可以为个性化的图像生成提供更多的可能性,更好地满足用户的需求。

Read More
2023-11-30 talkingdev

论文:创新方法增强手语视频隐私保护

DiffSLVA是一种创新的手语视频匿名化方法,可以在保留语言内容的同时进行隐私保护。该技术使用预训练的扩散模型和专门的面部表情模块,克服了以前的限制,不需要精确的姿势估计。

Read More
2023-11-30 talkingdev

论文:通过扩散模型实现先进的视频超分辨率技术

StableVSR是一种新颖的视频超分辨率(VSR)方法,利用扩散模型和时间条件模块来提高放大视频的质量。与基于深度学习的方法相比,StableVSR可以更好地处理不同的噪声和失真情况,并且在不需要额外训练数据的情况下也...

Read More
  1. Prev Page
  2. 12
  3. 13
  4. 14
  5. Next Page