漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-09-25 talkingdev

HuggingFace变形金刚中的Flash Attention 2:性能大幅提升

最新版本的Flash Attention在提升模型上下文长度和性能的同时,其速度也得到了极大的提升。目前,Flash Attention正在被HuggingFace生态系统本地化支持的过程中。Flash Attention的升级不仅仅提升了模型的运算速度,...

Read More
2023-09-22 talkingdev

论文:模型如何理解声音和视觉的结合?

这项研究介绍了AV-SUPERB,这是一个新的基准测试,用于测试训练模型在各种任务中对声音和视觉数据的理解程度。AV-SUPERB的目标是推动音频和视觉共同理解的发展,并为未来的研究提供一个统一的平台。这项研究突出了模...

Read More
2023-09-21 talkingdev

检索不仅仅是嵌入式搜索:AI检索技术的改进与挑战

语言模型在处理实际查询时,经常出现虚构的细节。通过检索事实,我们可以减少这些不准确性。然而,将查询嵌入并对向量存储进行搜索的检索增强生成(RAG)的基础形式往往表现不佳。本文讨论了如何利用查询对象和信息...

Read More
2023-09-21 talkingdev

DFormer开源,更深入理解RGB-D图像

DFormer是一种独特的方法,可以同时研究图像的颜色和深度。与旧有的方法不同,DFormer专为RGB-D图像设计。RGB-D图像是一种同时包含颜色信息(R,G,B)和深度信息(D)的图像。DFormer的设计目标是提供一种更有效的...

Read More
2023-09-20 talkingdev

HF transformers,最新的背景移除技术

Matting是一种创建黑白掩膜以分割出图像重要部分的过程。它通常用于前景和背景的分割。智能手机的人像模式使用了一种与这里描述的ViTMatte相似的方法。这种技术发展现代化,为未来的图像处理技术开创了新的可能。此...

Read More
2023-09-20 talkingdev

让深度估计更具灵活性

从单一的2D图像中确定3D深度是一项棘手的任务,因为许多3D场景在2D中看起来可能相同。这种方法将相机的细节与图片的内容进行了分离,使得在各种情况下更容易猜测深度。这种深度估计的灵活性可以在各种复杂环境下,如...

Read More
2023-09-19 talkingdev

更高效的微调视觉变换器

对预训练的视觉模型进行特定任务的微调,通常需要大量额外的计算能力。然而,研究人员已经提出了一种名为“显著通道调整”(SCT)的方法,这种方法可以智能地选择模型中需要微调的部分,使用的额外设置要远少于其他方...

Read More
2023-09-19 talkingdev

论文:新型语言模型目标采用捆绑嵌入加速训练

通常情况下,语言模型的输入和输出嵌入层是捆绑在一起的。然而,如果您将输入嵌入与模型内部的其他嵌入捆绑在一起,并使用对比损失,您可以在实际运行时间和最终基准准确度上获得显著改善的性能。这种方法的关键在于...

Read More
  1. Prev Page
  2. 38
  3. 39
  4. 40
  5. Next Page