漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-12-08 talkingdev

Google Gemini:原生多模态模型,文本能力达到GPT4水平

Google的旗舰机型Gemini是一款原生多模态模型,其文本能力达到了GPT4的水平,同时还能够处理许多其他数据序列。此外,它还训练了Alpha Code 2,这是一个在代码力量比赛中排名前15%的编码器。Alpha Code 2将在12月13...

Read More
2023-12-07 talkingdev

DiffiT:基于扩散的视觉转换器生成高分辨率图像

该项目探索了视觉转换器在基于扩散的生成学习中的有效性,揭示了Diffusion Vision Transformers(DiffiT)。该模型将U形编码器-解码器架构与新型时变自注意模块相结合。DiffiT可以生成高分辨率的图像,具有非常好的...

Read More
2023-12-05 talkingdev

MoMask-文字转动画技术开源,实现细粒度控制

MoMask文字转动画技术是一项新颖的技术,其作者在此领域的基础性工作已有了新的进展。他们采用了新颖的编码方法,使得最终的动画生成具有细粒度控制能力,可以更具创意地生成动画效果。此技术的优点是可以通过更改编...

Read More
2023-11-01 talkingdev

COMM开源,改进多模态LLMs性能

近期,研究人员深入探究了多模态大型语言模型(MLLMs)中使用的视觉编码器,并发现CLIP和DINO模型中的某些特征特别适合于详细的视觉任务。他们随后引入了COMM,一种结合了两种模型优点的策略。COMM能够显著提高LLMs...

Read More
2023-11-01 talkingdev

Phind称其模型打败GPT-4,速度等同于GPT-3.5,支持16k上下文编码

据最新消息,Phind模型在编码方面的表现已经超过了目前最强的GPT-4。该模型支持16k上下文编码,在编码速度上也不逊于GPT-3.5。Phind模型是一种基于自然语言处理技术的编码器,可以用于编写各种程序代码。该模型采用...

Read More
2023-10-19 talkingdev

Adept发布多模式LLM

Adept发布了一个极其简单(没有图像编码器)而且非常高效(超过了13B模型)的多模式模型。这篇文章概述了Adept如何评估模型的性能以及一些模型的细节。

Read More
2023-10-11 talkingdev

深度学习技术助力人类运动模式转移至机器人

研究人员已经能够通过使用深度学习编码器,将人类的运动模式转移至机器人。通常,这需要使用专门的硬件,并对其进行针对机器人的校准。结合视频基础的运动捕捉技术,未来可能会有更酷的项目出现。传统的技术需要使用...

Read More
2023-10-06 talkingdev

Anthropic公司的下一步:朝向可解释性的发展

机械可解释性是通过将神经网络分解为更可解释的子部分来理解神经网络的过程。不幸的是,神经元本身往往不可解释。有一些深层次的原因,如叠加,导致了这个挑战。Anthropic公司的这项工作使用稀疏自编码器从一层Trans...

Read More
  1. Prev Page
  2. 6
  3. 7
  4. 8
  5. Next Page