漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-10-31 talkingdev

计算机视觉中的嵌入技术

嵌入是一种机器可读的数字列表,用于表示有关数据的某些信息。它们越来越多地通过将数据通过神经网络并查看模型的激活来获得。本文在计算机视觉任务中使用CLIP推进了这一想法,并探讨了如何使用降维来推理学习到的嵌...

Read More
2023-10-11 talkingdev

全新视频标记化工具MAGVIT-v2:提升视觉生成的重要武器

近期的一项研究介绍了一种名为MAGVIT-v2的视频标记化工具,有效地将图像和视频输入转化为大型语言模型(LLM)的标记。使用MAGVIT-v2,LLM在视觉生成任务中的表现超过了扩散模型。视频标记化是一种将视觉内容(如图像...

Read More
2023-06-26 talkingdev

TIMM计算机视觉工具套件

TIMM中有许多顶级计算机视觉模型,但在处理生产系统时,通常需要更多。OpenMMlab提供了一套高质量的系统,用于各种视觉任务,如姿态和分割。

Read More
2023-06-08 talkingdev

文本到图像模型中的紧急对应关系

最近,研究人员发现文本图像模型(如Stable Diffusion)可以具有紧急对应关系检测能力。这些对应关系是图像中的语义特征,即表示相同的事物,例如人的鼻子,动物的耳朵,汽车的轮胎等。通过巧妙的算法,可以从各种图...

Read More
  1. Prev Page
  2. 3
  3. 4
  4. 5