漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-08-07 talkingdev

PerceptionCLIP,开源增强zero-shot击图像分类方法

一项最新研究介绍了PerceptionCLIP,这是一种模拟人类视觉感知过程的两步图像分类方法,旨在更好地利用CLIP,一种突出的视觉语言模型。首先,通过识别背景属性并利用它们区分前景物体,这种新方法在图像分类任务中提...

Read More
2023-07-25 talkingdev

优化物体检测算法:AlignDet引领新技术潮流(GitHub开源代码库)

最近,有一款名为AlignDet的两阶段预训练框架在GitHub上开源,旨在弥补物体检测算法中的预训练和微调程序之间的差距。AlignDet的设计目标是提高算法的性能、泛化能力以及收敛速度。通过对预训练和微调过程的深度优化...

Read More
2023-07-19 talkingdev

预训练模型模仿人类行为:图像协调新方法(GitHub仓库)

这篇论文提出了一种新的图像协调方法,不同于以往的方法,这种方法并不依赖于大量的合成图像,这使得其训练成本更低,更具泛化性。在以往的方法中,需要大量的合成图像来训练模型,而这篇论文提出的方法,通过预训练...

Read More
2023-05-17 talkingdev

探索多模态泛化:提高动作识别技术

近期,一项新研究提出了一种新的概念——多模态泛化(MMG),用于解决当特定数据来源缺失或有限时系统如何适应的问题。该研究创建了一个名为MMG-Ego4D的新数据集,并开发了新的方法来增强系统的泛化能力,这可能会引导...

Read More
2023-05-01 talkingdev

自然语言指令控制下的InstructCTG文本生成

InstructCTG是一种受自然语言描述和演示控制的文本生成框架。这种灵活的方法通过少量训练即可在上下文学习和少量任务泛化中实现模型的自适应,并保持生成的质量和速度。以下是该框架的三个核心点: - InstructCTG使...

Read More
2023-04-27 talkingdev

PoseVocab:学习姿势嵌入进行人形化建模

PoseVocab是一种新颖的姿势编码方法,用于人形化建模,它构建了关键姿势和潜在嵌入,有效地编码了动态人类外观,并通过使用特征线、紧凑的3D表示和分层查询策略插值姿势嵌入,实现了姿势泛化和时间一致性。该方法在...

Read More
  1. Prev Page
  2. 2
  3. 3
  4. 4