视觉生成的相关内容 - 漫话开发者

2025-03-04 talkingdev

UniTok：统一视觉生成与理解的离散Tokenizer

近日，一项名为UniTok的创新技术引起了广泛关注。UniTok是一种离散视觉Tokenizer，旨在解决视觉生成与理解之间的表征差距。通过引入多码本量化技术，UniTok显著提升了token的表达能力，使其在生成任务中能够编码详细...

2023-10-11 talkingdev

近期的一项研究介绍了一种名为MAGVIT-v2的视频标记化工具，有效地将图像和视频输入转化为大型语言模型（LLM）的标记。使用MAGVIT-v2，LLM在视觉生成任务中的表现超过了扩散模型。视频标记化是一种将视觉内容（如图像...