Flexible Vision Transformer开源,可生成任意分辨率图片
talkingdev • 2024-02-22
967180 views
GitHub上发布了一个名为“Flexible Vision Transformer”的仓库,该架构设计用于创建任意分辨率和纵横比的图像。与传统模型不同,FiT将图像视为变量大小的标记序列,在训练和推理过程中更有效地适应不同的图像大小。这一技术的研发或许有望在未来改善图像处理、计算机视觉等领域的现有技术。
核心要点
- GitHub发布“Flexible Vision Transformer”仓库
- 该仓库支持生成任意分辨率和纵横比的图像
- FiT将图像视为变量大小的标记序列,在训练和推理过程中更有效地适应不同的图像大小