漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-02-02 talkingdev

Llava 1.6发布,OCR、推理和世界知识得到改进

Llava是一种视觉语言模型,最新版本为1.6,经过改进后,其OCR、推理和世界知识等方面有了很大提升,甚至在某些任务上可以与Gemini相媲美。Llava团队计划发布数据、代码和模型,以便更多人能够使用。

Read More
2024-01-16 talkingdev

Surya开源,多语言OCR工具包提供准确的文本检测

排线检测是在图像或PDF中在文本行周围放置一个边界框的过程。Surya是一个非常强大的多语言排线检测模型,并已在GitHub上开源发布。该模型可以识别多种语言,包括中文、英文、法文、德文和印地文等,并且可以在不同的...

Read More
2023-11-10 talkingdev

开源MusicGen升级至立体声生成

Audiocraft MusicGen是一款强大的将文本转化为音乐的人工智能模型。最新升级的版本现在支持立体声生成,通过巧妙地交叉使用左右声道进行微调,提高了整体音乐体验。虽然这一升级并没有提高基准分数,但它能够更好地...

Read More
2023-10-27 talkingdev

论文:评估GPT-4V的光学字符识别能力

本文研究了大型多模型GPT-4V在各种光学字符识别(OCR)任务中的表现,包括读取场景和手写文本,理解复杂的文档结构等。

Read More
2023-10-05 talkingdev

现在可以在Bing Chat中使用OpenAI的DALL-E 3 AI图像生成器

微软已将OpenAI的DALL-E 3集成到Bing Chat中,为用户提供了更强大的图像生成功能。DALL-E 3承诺提高了对提示的理解,能生成更有创意和逼真的图像。此外,微软计划将DALL-E技术应用于其他产品中,例如Windows的Paint...

Read More
2023-10-03 talkingdev

Microsof的UniLM团队的Kosmos-2.5:将自然语言处理技术拓展至图像领域

近年来,Microsoft的UniLM团队在自然语言处理领域取得了一些显著的成果。他们最近推出的Kosmos模型套件已经进军图像领域。这次的特定实例是用于从图像读取文本密集的文件,并为该文件生成文本或标记。这与最近Meta为...

Read More
2023-08-03 talkingdev

Meta发布AudioCraft:一站式生成音频需求的代码库

Meta最新发布的AudioCraft,是一款满足所有生成音频需求的一站式代码库,包括音乐、音效和压缩。AudioCraft的出现,改变了过去我们需要使用多个工具和平台才能完成的音频生成任务,现在只需要这个代码库,就能轻松完...

Read More
2023-06-30 talkingdev

MusicGen: 简化音乐生成的一种新方法开源

Audiocraft推出MusicGen,这是一种简化和增强音乐生成的模型。这种单阶段的自回归Transformer模型不需要像之前的方法那样进行自监督语义表示,通过并行预测所有码本,它更高效地生成音乐,从而每秒音频的步骤更少。

Read More
  1. Prev Page
  2. 2
  3. 3
  4. 4
  5. Next Page