PixArt一直是流行的Stable Diffusion图像生成模型的并行研究方向。本研究采用潜在一致性模型实现更快的生成速度,并采用ControlNet样式提示实现更好的控制。
Read More研究人员开发了一种新的文本到3D生成模型的评估指标,解决了当前单一标准指标的局限性。这种先进的方法使用GPT-4V来创建提示并比较3D资产。它与人类偏好密切相关,并通过适应各种用户定义的标准来提供多样性。
Read MoreMUSE是一种使用Transformers的掩蔽图像生成模型。HuggingFace和Stability AI已经合作开源复现该模型,并发布了训练代码、模型检查点和论文。虽然这些模型的训练时间不如一些最好的图像扩散模型长,但它们显示出了很...
Read More微软的最新模型现已在HuggingFace上提供研究用途。Phi-2是一种基于Transformers的语言生成模型,它被训练用于生成各种文本,包括问答、对话和自然语言生成。该模型采用的是自回归模式,即在生成下一个单词或字符时,...
Read MoreControlNet是一种为图像合成模型提供细粒度控制的新颖方法。现在有一种类似的音乐生成模型,可以让您控制许多特征,如语音和音调。这种新型音乐生成模型可以为音乐家们提供更多的创作可能性,使其更好地掌握音乐创作...
Read More往往情况下,当你使用生成模型生成一张图片后,它不完全是你想要的。然而,使用同一模型对图像进行编辑是极具挑战性的。Meta有一个关键的想法,即将所有生成视为指令,从而使编辑功能出现。这与新的模型架构的简单性...
Read MoreOpenAI目前通过ChatGPT和API赢得了消费者和企业市场,但他们能否继续这么做还不确定。OpenAI是一家人工智能研究实验室,其目标是创建安全和有益的人工智能。ChatGPT是一种语言生成模型,可以生成与给定输入相关的自...
Read MoreDALLE-3图像生成模型的质量提升的主要驱动力之一是改进后的数据质量。通过使用内部模型进行标题上采样来实现。这里提供了一个使用强大的开源模型进行实现的GitHub开源库。
Read More