漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-01-25 talkingdev

Lumiere-谷歌AI视频生成器能够将可爱的动物放入不同场景中

Lumiere是一款使用时空扩散模型进行逼真视频生成的AI视频生成器。它使用的Space-Time U-Net架构可以一次性生成整个视频的时间持续时间。它旨在处理视频中物体的位置以及物体如何移动和变化。Lumiere可以执行文本到视...

Read More
2024-01-24 talkingdev

交互式控制文本生成技术革新,多模态语言模型中引入“提示高亮器”

研究人员引入了“提示高亮器”方法,它革新了多模态语言模型中的文本生成技术,使用户能够突出提示的某些部分,从而更好地控制生成的文本。这种方法提供了一种更加灵活、直观和有效的交互式控制方式,使得文本生成的结...

Read More
2024-01-21 talkingdev

LMSYS发布SGLang和Radix Attention,提高提示和推理速度

LMSYS发布了两项语言模型推理的新技术。第一项是对后端进行的改进,提高了每秒的标记总数性能。第二项是嵌入式领域特定语言,用于复杂提示技术,允许并行提示

Read More
2024-01-16 talkingdev

论文:采用潜在一致性模型实现快速可控图像生成

PixArt一直是流行的Stable Diffusion图像生成模型的并行研究方向。本研究采用潜在一致性模型实现更快的生成速度,并采用ControlNet样式提示实现更好的控制。

Read More
2024-01-15 talkingdev

论文:语言模型对提示词敏感研究

最近的研究表明,根据提示对模型进行少量训练,可以在任务上达到4-88%的准确率。这项研究展示了如何科学地改进您的提示,从而提高模型的准确性。这项技术对于自然语言处理领域的未来具有重要意义。

Read More
2024-01-11 talkingdev

文本到3D模型的评估指标

研究人员开发了一种新的文本到3D生成模型的评估指标,解决了当前单一标准指标的局限性。这种先进的方法使用GPT-4V来创建提示并比较3D资产。它与人类偏好密切相关,并通过适应各种用户定义的标准来提供多样性。

Read More
2024-01-09 talkingdev

提示增强的视觉语言模型开源

这项项目介绍了一种方法,可以适应各种任务的类似CLIP的视觉语言模型,同时保留其泛化能力。该方法从LLM数据中学习提示,避免了需要标记图像的需求。

Read More
2024-01-03 talkingdev

论文:微软研究使用LLM改进文本嵌入技术

微软的研究人员使用合成数据来训练基于Mistral的解码器,以改进嵌入技术。该技术是同类产品中最佳的。有趣的是,他们使用GPT-4的两步提示策略来生成合成检索训练数据。

Read More
2023-12-25 talkingdev

Midjourney V6发布,实现图片内文字识别和全新提示方式

Midjourney V6已经发布alpha版。这个更新大大提高了图像质量,并使模型能够在图像中生成可读的文字。它还配备了全新的提示方式,更加敏感,更能理解用户。如果用户习惯于Midjourney V5提示,他们可能需要重新学习提...

Read More
2023-12-22 talkingdev

Midjourney V6发布:图片中可生成易读文本,提示功能得到全面升级

Midjourney V6已经发布alpha版。此次更新大幅提高了图像质量,并使模型能够在图像中生成易读文本。它还配备了全新的提示方法,更加灵敏,更加擅长理解用户。如果用户习惯于Midjourney V5提示,他们可能需要重新学习...

Read More
  1. Prev Page
  2. 8
  3. 9
  4. 10
  5. Next Page