漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-01-31 talkingdev

论文:AI模型手部图像生成能力得到优化

研究人员通过在训练手部注释图像中添加三个额外通道,改善了生成模型(例如GAN和扩散模型)创建逼真手部图像的能力。这种方法利用了手部形态的先验知识,可以应用于许多手部相关的任务,例如手语翻译和手势识别。此...

Read More
2024-01-31 talkingdev

论文:AI改写艺术图像编辑

CreativeSynth是一种艺术图像编辑方法,通过无缝集成文本和图像输入来实现。其扩散模型配备了定制化的注意机制,能够精确地处理风格和内容,同时保留原始艺术作品的本质。为艺术家和设计师提供了一个全新的创作维度...

Read More
2024-01-31 talkingdev

基于Transformer的大词汇量3D扩散模型

3D对象生成的一个关键挑战是可以创建的物品的多样性。本研究使用修改后的架构来提高样本效率,并将系统扩展到可以处理每个3D类别中更大的对象集。

Read More
2024-01-30 talkingdev

Pix2Gestalt:零样本全景分割框架开源

Pix2Gestalt是一种针对零样本全景分割的框架。它擅长在部分遮挡的情况下重建完整的物体形状和外观。利用大规模扩散模型,Pix2Gestalt在挑战性场景中表现出色,包括那些不符合通常模式的艺术图像。Pix2Gestalt的创新...

Read More
2024-01-26 talkingdev

Google、Weizmann科学研究所和特拉维夫大学展示Lumiere,用于逼真的AI视频的时空扩散模型

Google、Weizmann科学研究所和特拉维夫大学推出了Lumiere,这是一种用于逼真视频生成的时空扩散模型,相对于现有的AI视频模型,它承诺更连贯的运动和更高的质量。目前尚未公开测试。

Read More
2024-01-25 talkingdev

Google Chrome增加AI功能

谷歌正在增强Chrome的功能,包括在线文本编辑助手、多标签页自动整理和基于文本到图像扩散模型的自定义主题创建器等AI功能。

Read More
2024-01-25 talkingdev

Lumiere-谷歌AI视频生成器能够将可爱的动物放入不同场景中

Lumiere是一款使用时空扩散模型进行逼真视频生成的AI视频生成器。它使用的Space-Time U-Net架构可以一次性生成整个视频的时间持续时间。它旨在处理视频中物体的位置以及物体如何移动和变化。Lumiere可以执行文本到视...

Read More
2024-01-22 talkingdev

Diffusion模型可用于内容超分辨率

随着最近将扩散模型用于各种其他视觉任务的趋势,本研究改进了超分辨率的训练稳定性和缩放。

Read More
  1. Prev Page
  2. 11
  3. 12
  4. 13
  5. Next Page