漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-03-22 talkingdev

论文:扩散状态空间模型引领图像生成新纪元

扩散状态空间模型(DiS)是一种新型的扩散模型,它采用状态空间骨干代替了传统的U-Net处理图像数据。这种模型在保持计算效率的同时,能够处理长距离依赖问题,并且能够生成高质量的图像。与传统的U-Net相比,DiS模型...

Read More
2024-03-22 talkingdev

日本顶尖AI实验室推出首个模型

Sakana AI开发了先进的日语语言、视觉和图像生成模型。该公司引入了一种进化模型融合技术,旨在无需昂贵的预训练即可发展基础模型。该模型融合技术已经发布,并附带了方法的解释。这一创新技术将有助于降低AI模型开...

Read More
2024-03-20 talkingdev

论文:Stable Diffusion 3-图像生成领域的新突破

Stable Diffusion 3(SD3)是一款具有革命性的图像生成模型,通过引入潜在对抗性扩散蒸馏技术,成功将扩散步骤数量减少至4步,同时保持了图像生成的高质量。这项技术的进步不仅提升了图像生成的效率,还为AI艺术创作...

Read More
2024-03-13 talkingdev

V3D开源-视频扩散模型增强3D生成技术

这个项目引入了一种新颖的方法,通过单个图像生成高质量、详细的3D物体,增强了3D物体的生成。该方法基于视频扩散模型,利用深度学习技术从单个视角的2D图像生成高质量的3D模型。此方法可应用于各种领域,如游戏制作...

Read More
2024-03-11 talkingdev

多视角图像生成技术 ViewFusion

近日,研究人员提出了一种名为 ViewFusion 的新算法,旨在改善扩散模型从新的视角生成图像的方式,确保图像在不同视角下保持一致。传统的扩散模型在处理多视角图像时,往往会产生不一致性,导致图像质量下降。ViewFu...

Read More
2024-03-07 talkingdev

MobileClip:快速文本和图像生成模型

MobileClip是一个快速的文本和图像模型,与OpenAI的原始CLIP模型性能相同,但运行速度提高了7倍。它可以在设备上用于各种视觉和语言任务。

Read More
2024-03-05 talkingdev

谷歌联合创始人谢尔盖·布林在罕见的公开露面中表示公司“绝对搞砸了”Gemini图像发布

Alphabet联合创始人谢尔盖·布林退休后回归工作,专注于人工智能,上周末在加利福尼亚州希尔斯伯勒的“AGI之家”与一群人工智能爱好者交流,谈到了人工智能对搜索的影响以及谷歌如何在人工智能不断发展的情况下保持领先...

Read More
2024-03-04 talkingdev

扩散蒸馏的悖论

扩散模型将困难问题(比如图像生成)拆分成多个小问题(比如从图像中去除微小的噪点)。单步扩散生成已经得到了很多努力,但似乎这并不符合初衷。本文探讨了扩散蒸馏的悖论,并概述了许多可供研究的方向。

Read More
  1. Prev Page
  2. 11
  3. 12
  4. 13
  5. Next Page