漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-02-08 talkingdev

MetaVoice-开源13亿文本到语音模型

Meta Voice 是一个小而强大的文本到语音模型,支持生成和语音克隆。该模型基于深度神经网络和自回归模型,可用于多种应用场景,如语音合成、语音助手等。此外,Meta Voice 还支持多种语言,包括英语、中文、日语等。...

Read More
2024-01-29 talkingdev

LLM Steer - 控制生成的语言模型库开源

LLM Steer是一个用于使用情感向量控制语言模型生成的库。这意味着您可以嵌入一个诸如“深思熟虑”的概念,并使生成变得更加深思熟虑。一般而言,它的效果要比提示更好,但需要进行更多的研究。

Read More
2024-01-22 talkingdev

HuggingFace发布Haiku DPO数据集,助力模型写出正确的俳句

HuggingFace于近日发布了Haiku DPO数据集,旨在帮助AI模型写出正确的日本俳句。该数据集由多位专业诗人参与标注,包含数千条俳句及其正确的音律和形式,涵盖了从传统到现代的各个风格。据悉,该数据集可以用于训练和...

Read More
2024-01-12 talkingdev

单个非自回归Transformer实现掩码音频生成

大多数音频生成技术使用扩散或自回归模型来生成声音。而这项研究并不使用多步骤或复杂的Transformer。相反,它使用了一个掩码语言模型来生成音频令牌。

Read More
2024-01-09 talkingdev

对比激活下的Steering Llama 2技术

有很多方式可以对齐语言模型,例如SFT、LoRa、RLHF、DPO、Prompting和Threatening。本研究提出使用负嵌入加到偏置项中,以将模型生成推向期望的结果。

Read More
2024-01-08 talkingdev

开源项目RAG atouille用于检索管道的研发

Retrieval Augmented Generation(RAG)是一种将外部知识融入语言模型生成中的方法。RAGatouille库允许训练和研究最先进的RAG系统。它简化了研究人员的工作,使其能够更轻松地构建检索管道,并将其应用于语言生成领...

Read More
2023-12-25 talkingdev

Midjourney V6发布,实现图片内文字识别和全新提示方式

Midjourney V6已经发布alpha版。这个更新大大提高了图像质量,并使模型能够在图像中生成可读的文字。它还配备了全新的提示方式,更加敏感,更能理解用户。如果用户习惯于Midjourney V5提示,他们可能需要重新学习提...

Read More
2023-12-22 talkingdev

Midjourney V6发布:图片中可生成易读文本,提示功能得到全面升级

Midjourney V6已经发布alpha版。此次更新大幅提高了图像质量,并使模型能够在图像中生成易读文本。它还配备了全新的提示方法,更加灵敏,更加擅长理解用户。如果用户习惯于Midjourney V5提示,他们可能需要重新学习...

Read More
  1. Prev Page
  2. 5
  3. 6
  4. 7
  5. Next Page