漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-05-16 talkingdev

论文:英汉文本到图像生成新标杆,混元-DiT的突破性发展

最新研发的混元-DiT在文本到图像扩散变换器方面设立了新的标杆,特别是对于英文和汉文。这一技术特征包括先进的变换器结构和精炼的数据管道,为持续的模型改进提供了可能性。而这一突破性的发展,不仅提升了英汉文本...

Read More
2024-05-07 talkingdev

使用Morph-Tokens增强视觉能力

研究人员已经开发出“Morph-Tokens”来提高AI的视觉理解和图像生成能力。这些令牌将用于理解的抽象概念转换为用于图像创建的详细视觉,利用MLLM框架的先进处理能力。Morph-Tokens的开发,不仅能够提高AI的图像理解和生...

Read More
2024-05-03 talkingdev

StreamMultiDiffusion开源,实时交互式图像创作

近日,一个名为StreamMultiDiffusion的新框架在GitHub上开源,该框架能够实现实时的区域性文本到图像的生成。这是一项突破性的技术,可以将文本信息实时转换为图像,显著提高了图像生成的效率和便利性。无论是在设计...

Read More
2024-04-28 talkingdev

Sakana发布高速日语图像生成模型

Sakana AI近日发布了EvoSDXL-JP,这是一款为日语指令优化的高速图像生成模型,采用了一种革新的模型融合方法。与现有模型相比,EvoSDXL-JP的推断速度提高了十倍,并且性能卓越。这款模型非常适合在日本的教育领域使...

Read More
2024-04-16 talkingdev

深度解析:视频扩散模型的生成与应用

本文深入探讨了如何训练扩散模型以生成视频,如何适配图像模型,甚至在无需额外训练的情况下,如何从图像模型中生成视频。扩散模型作为一种新兴的生成模型,已经在图像生成领域取得了显著的成果。文章首先介绍了扩散...

Read More
2024-04-15 talkingdev

直接从文本生成360度全景图像开源

最近,一个名为PanFusion的项目引起了业界的广泛关注。该项目采用了一种双分支扩散模型,可以直接从文本提示生成360度全景图像。该方法结合了稳定的扩散技术和专门的全景分支,并通过独特的交叉注意力机制来减少图像...

Read More
2024-04-10 talkingdev

Visual Autoregressive Models:图像生成高分辨率解决方案

Visual Autoregressive Models是一个新的GitHub项目,它将图像生成视为逐步预测更高分辨率的过程。该代码库包含了用于下一分辨率预测工作的推理脚本和演示笔记本。虽然训练代码将很快公开,但目前该项目已经引起了技...

Read More
2024-04-10 talkingdev

UniFL技术提升稳定扩散模型输出质量

UniFL是一种通过一系列复杂的反馈步骤来提高扩散模型输出质量的方法。这些步骤旨在提升生成图像的视觉质量、美感和偏好对齐。这些技术与底层模型无关,可用于提升任何图像生成模型的性能。

Read More
  1. Prev Page
  2. 9
  3. 10
  4. 11
  5. Next Page