漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-12-07 talkingdev

DiffiT:基于扩散的视觉转换器生成高分辨率图像

该项目探索了视觉转换器在基于扩散的生成学习中的有效性,揭示了Diffusion Vision Transformers(DiffiT)。该模型将U形编码器-解码器架构与新型时变自注意模块相结合。DiffiT可以生成高分辨率的图像,具有非常好的...

Read More
2023-12-05 talkingdev

MoMask-文字转动画技术开源,实现细粒度控制

MoMask文字转动画技术是一项新颖的技术,其作者在此领域的基础性工作已有了新的进展。他们采用了新颖的编码方法,使得最终的动画生成具有细粒度控制能力,可以更具创意地生成动画效果。此技术的优点是可以通过更改编...

Read More
2023-11-01 talkingdev

COMM开源,改进多模态LLMs性能

近期,研究人员深入探究了多模态大型语言模型(MLLMs)中使用的视觉编码器,并发现CLIP和DINO模型中的某些特征特别适合于详细的视觉任务。他们随后引入了COMM,一种结合了两种模型优点的策略。COMM能够显著提高LLMs...

Read More
2023-11-01 talkingdev

Phind称其模型打败GPT-4,速度等同于GPT-3.5,支持16k上下文编码

据最新消息,Phind模型在编码方面的表现已经超过了目前最强的GPT-4。该模型支持16k上下文编码,在编码速度上也不逊于GPT-3.5。Phind模型是一种基于自然语言处理技术的编码器,可以用于编写各种程序代码。该模型采用...

Read More
2023-10-19 talkingdev

Adept发布多模式LLM

Adept发布了一个极其简单(没有图像编码器)而且非常高效(超过了13B模型)的多模式模型。这篇文章概述了Adept如何评估模型的性能以及一些模型的细节。

Read More
2023-10-11 talkingdev

深度学习技术助力人类运动模式转移至机器人

研究人员已经能够通过使用深度学习编码器,将人类的运动模式转移至机器人。通常,这需要使用专门的硬件,并对其进行针对机器人的校准。结合视频基础的运动捕捉技术,未来可能会有更酷的项目出现。传统的技术需要使用...

Read More
2023-10-06 talkingdev

Anthropic公司的下一步:朝向可解释性的发展

机械可解释性是通过将神经网络分解为更可解释的子部分来理解神经网络的过程。不幸的是,神经元本身往往不可解释。有一些深层次的原因,如叠加,导致了这个挑战。Anthropic公司的这项工作使用稀疏自编码器从一层Trans...

Read More
2023-09-29 talkingdev

论文:VQ-VAE的简化,新方案提出简易量化计划

向量量化变分自编码器(VectorQuantized-VAEs)通常被视为在学习特定离散表示(例如,令牌或代码)时的最新技术。然而,它们通常复杂且脆弱。一篇新的论文提出了一种简单的量化方案,消除了代码本崩溃和复杂的设备,...

Read More
2023-09-08 talkingdev

单一宽前馈层:转变你的编码解码器

在变压器网络中,前馈层占据了大部分的总权重。然而,如果你使用一个单一的大型前馈层,共享给编码器和解码器,你可以显著提高推理时间,同时性能的下降微乎其微。这是一种有效的优化手段,可以有效提升网络的运行效...

Read More
2023-06-06 talkingdev

无需提示的扩散,文本转图像更进一步 (GitHub仓库)

最近,研究人员在文本转图像(T2I)领域中推出了一种新的方法,称之为“无需提示的扩散”。这种系统只依靠视觉输入生成图像,无需任何文本提示。其利用了一种称为“语义上下文编码器(SeeCoder)”的独特结构来解释参考...

Read More
  1. Prev Page
  2. 3
  3. 4
  4. 5
  5. Next Page