UniTok:统一视觉生成与理解的离散Tokenizer
talkingdev • 2025-03-04
35777 views
近日,一项名为UniTok的创新技术引起了广泛关注。UniTok是一种离散视觉Tokenizer,旨在解决视觉生成与理解之间的表征差距。通过引入多码本量化技术,UniTok显著提升了token的表达能力,使其在生成任务中能够编码详细信息,同时在理解任务中捕捉语义内容。这一技术克服了离散token固有的容量瓶颈,表现优于或与领域特定的连续Tokenizer相媲美。UniTok的出现为视觉生成与理解领域带来了新的可能性,有望推动相关技术的进一步发展。
核心要点
- UniTok是一种离散视觉Tokenizer,旨在解决视觉生成与理解之间的表征差距。
- 通过多码本量化技术,UniTok显著提升了token的表达能力。
- UniTok在生成和理解任务中表现优异,克服了离散token的容量瓶颈。