视觉识别的相关内容 - 漫话开发者

2023-09-14 talkingdev

instaflow-利用流校正技术实现文本到图像生成的超速进程

研究人员已经找到一种方法，通过使用名为校正流（Rectified Flow）的技术，加快将文本转化为图像的过程。校正流技术是一种新颖的方法，它可以加速和优化图像的生成过程。这种方法凭借其高效的性能，为文本到图像的快...

2023-09-11 talkingdev

本研究的作者们开发了一种新方法，只需要一张照片，就能准确地确定篮球在3D空间中的位置。这对于体育分析和机器人技术等领域来说，具有重大意义。对于传统的3D定位技术，通常需要多个相机或传感器才能实现精确定位，...

2023-08-08 talkingdev

本研究引入了一种数据集，用于探究AI是否能像人类一样“看”图像。该数据集主要分为三个组别——Must-Act、Must-Abstain和Uncertain——设计用于测试AI在清晰、不清晰或模糊图像上的决策能力。Must-Act组中的图像是明确的...

2023-08-04 talkingdev

SoftMoE 是一种新的模型架构，它改进了稀疏的混合专家（MoE）模型。通过使用软分配方法，每个专家处理输入令牌的子集，SoftMoE以更低的成本提供了更大的模型容量。在视觉识别任务中，SoftMoE的表现超过了标准的变压...

2023-07-31 talkingdev

transformer模型帮助机器人看，帮助机器人计划，甚至帮助机器人控制？看起来，变形金刚正在继续吞噬世界，这是谷歌在机器人技术方面的最新尝试，利用强大的预训练模型改善机器人的各种性能。这一新的尝试使得机器人...

2023-06-19 talkingdev

Seal是一个新的系统，使用先进的视觉识别模型来更好地解释各种类型的车辆传感器数据，使其更高效和适应性。在测试中，与标准方法相比，它提高了近37%的传感器数据解释能力，显示了改善未来汽车安全和导航系统的巨大...