架构的相关内容 - 漫话开发者

2023-12-20 talkingdev

斯坦福发布新序列混合器

Mamba的创建者（以及许多其他模型）发布了一篇很专业的博客文章，概述了基本的序列混合架构，相对于标准Transformer，可以获得相当大的速度提升。该团队的新模型使用了这种混合方法，并且获得了非常好的性能。这种新...

2023-12-12 talkingdev

近来，Transformer模型在AI领域占据统治地位。它们是强大的序列学习器，但也存在一些缺点。这项新工作基于状态空间模型，展示了新的架构可以带来巨大的好处，如增加上下文长度。

2023-12-11 talkingdev

谷歌宣布推出Cloud TPU v5p，这是目前谷歌最强大、可扩展和灵活的AI加速器。TPU用于训练和提供AI产品。谷歌还宣布推出AI超级计算机，这是一种超级计算机架构，采用性能优化硬件、开放软件、领先的ML框架和灵活的消费...

2023-12-07 talkingdev

该项目探索了视觉转换器在基于扩散的生成学习中的有效性，揭示了Diffusion Vision Transformers（DiffiT）。该模型将U形编码器-解码器架构与新型时变自注意模块相结合。DiffiT可以生成高分辨率的图像，具有非常好的...

2023-12-06 talkingdev

MotionEditor是一种专为视频运动编辑而设计的扩散模型，巧妙地平衡了运动操作和原始内容保护。它引入了一种内容感知运动适配器和一个独特的双分支架构，注入注意力，使得编辑后的运动无缝集成，同时保持原始背景和主...

2023-12-05 talkingdev

MaXTron是一种简单而有效的统一元架构，用于视频分割。

2023-11-30 talkingdev

近日，llamafile发布了新的GitHub Repo，它是一种新的单文件分发工具，允许任何人使用单个文件分发和运行LLMs。LLMs可以在多个CPU微架构上运行，而不需要用户在每个平台上编译。这种工具可以节省开发者的时间和精力...

2023-11-21 talkingdev

据报道，Meta已解散其负责AI的团队，并将大多数成员重新分配到其生成AI产品团队，其余成员则分配到AI基础架构团队。Meta未透露背后的原因，但此举可能会引起人们对其AI道德和责任问题的担忧。Meta表示，该公司仍将继...