Hugging Face Hub最新推出的MAGI 1模型标志着自回归视频生成技术的重要突破。该模型能够生成具有长期一致性的长视频内容,其性能与Wan视频生成模型相当,虽略逊于某些闭源商业模型,但作为开源解决方案展现出显著竞...
Read More最新研究通过两阶段优化策略,成功将自回归模型应用于个性化图像生成领域,其生成质量已达到当前主流的扩散模型水平。该论文提出创新性训练框架,第一阶段通过大规模数据集预训练构建基础模型,第二阶段采用针对性微...
Read MoreBaichuan Omni 1.5 是一款支持文本、图像、视频和音频输入以及文本和音频输出的开源全模态基础模型。该模型采用任意到任意(any-to-any)的设计风格,属于原生多模态模型的一种典型代表。其核心技术在于使用了交错的...
Read More近日,一项名为Block Diffusion的技术引起了广泛关注。该技术通过创新的方式在自回归模型(autoregressive models)和扩散模型(diffusion models)之间进行插值,为生成模型领域带来了新的突破。自回归模型以其序列...
Read More近日,一款轻量级的自回归流式文本转语音模型在GitHub上发布。该模型仅包含3000万参数,能够与任何语言模型(LLM)结合,使其具备理解和生成语音的能力,以响应通用查询。这一技术的核心优势在于,它无需对底层模型...
Read MoreVARGPT是一种多模态大语言模型(MLLM),其独特之处在于将视觉理解与生成功能统一在一个自回归框架内。这一创新设计使得VARGPT能够同时处理文本和图像数据,实现更高效的跨模态信息处理。通过自回归机制,VARGPT不仅...
Read More近日,一项关于CoT(Chain-of-Thought)推理在自回归图像生成领域的研究项目引发了广泛关注。该项目通过探索CoT推理的潜力,旨在提升自回归图像生成模型的表现。自回归模型在图像生成任务中通常依赖于逐步预测像素值...
Read More该项目引入了回声嵌入,这是一种新的策略,通过将未来令牌信息纳入其中,克服了自回归模型的一个关键限制。这是通过将输入重复两次来实现的,这显著提高了基准任务的性能,同时与其他嵌入增强方法兼容。
Read More