漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-11-10 talkingdev

开源MusicGen升级至立体声生成

Audiocraft MusicGen是一款强大的将文本转化为音乐的人工智能模型。最新升级的版本现在支持立体声生成,通过巧妙地交叉使用左右声道进行微调,提高了整体音乐体验。虽然这一升级并没有提高基准分数,但它能够更好地...

Read More
2023-10-27 talkingdev

论文:评估GPT-4V的光学字符识别能力

本文研究了大型多模型GPT-4V在各种光学字符识别(OCR)任务中的表现,包括读取场景和手写文本,理解复杂的文档结构等。

Read More
2023-10-05 talkingdev

现在可以在Bing Chat中使用OpenAI的DALL-E 3 AI图像生成器

微软已将OpenAI的DALL-E 3集成到Bing Chat中,为用户提供了更强大的图像生成功能。DALL-E 3承诺提高了对提示的理解,能生成更有创意和逼真的图像。此外,微软计划将DALL-E技术应用于其他产品中,例如Windows的Paint...

Read More
2023-10-03 talkingdev

Microsof的UniLM团队的Kosmos-2.5:将自然语言处理技术拓展至图像领域

近年来,Microsoft的UniLM团队在自然语言处理领域取得了一些显著的成果。他们最近推出的Kosmos模型套件已经进军图像领域。这次的特定实例是用于从图像读取文本密集的文件,并为该文件生成文本或标记。这与最近Meta为...

Read More
2023-08-03 talkingdev

Meta发布AudioCraft:一站式生成音频需求的代码库

Meta最新发布的AudioCraft,是一款满足所有生成音频需求的一站式代码库,包括音乐、音效和压缩。AudioCraft的出现,改变了过去我们需要使用多个工具和平台才能完成的音频生成任务,现在只需要这个代码库,就能轻松完...

Read More
2023-06-30 talkingdev

MusicGen: 简化音乐生成的一种新方法开源

Audiocraft推出MusicGen,这是一种简化和增强音乐生成的模型。这种单阶段的自回归Transformer模型不需要像之前的方法那样进行自监督语义表示,通过并行预测所有码本,它更高效地生成音乐,从而每秒音频的步骤更少。

Read More
2023-06-16 talkingdev

Easy OCR: 强大的OCR技术开源库

Easy OCR是一个强大的OCR技术开源库,能够从图像或PDF中提取文本。它已经支持了超过80种语言,并采用了一些最先进的方法。 ## Easy OCR的三大核心优势 - 支持超过80种语言,适用于全球各地的使用者。 - 采用最先进...

Read More
2023-06-15 talkingdev

Audiocraft发布PyTorch库,用于音频生成的深度学习研究

Audiocraft是一个PyTorch库,用于音频生成的深度学习研究,其中包含了最先进的可控文本转音乐模型MusicGen的代码。 ### 核心要点: - Audiocraft是一种用于音频生成的PyTorch库。 - Audiocraft包含最新的可控文本...

Read More
  1. Prev Page
  2. 3
  3. 4
  4. 5
  5. Next Page