漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-11-02 talkingdev

HF开源结合语言模型和计算机视觉进行开放式分词

Hugging Face Space最近发布了两项重要技术:Segment Anything和MetaCLIP,这两项技术结合了最强大的语言模型和计算机视觉技术,能够基于文本输入进行开放式分词。开放式分词是计算机视觉领域中一个新颖且令人兴奋的...

Read More
2023-06-29 talkingdev

MotionGPT: 融合运动和语言的方法(GitHub仓库)

本仓库介绍了MotionGPT,这是一种将人体动作和语言相结合的新技术。通过将运动视为一种独立的语言形式,该工具可以帮助改善与运动相关的任务,例如根据文本输入预测或描述动作。

Read More
2023-06-20 talkingdev

FALL-E:通过文本创造声音的系统

FALL-E是一个先进的系统,通过逐步的过程来创建声音,包括生成基本声音'图像',对其进行细化,并将其塑造成所需声音。该系统通过训练使用各种声音,并使用文本描述进行优化,从而学习根据文本输入复制声音的质量和环...

Read More
  1. Prev Page
  2. Next Page