自回归模型的相关内容 - 漫话开发者

2025-04-22 talkingdev

Hugging Face发布MAGI 1：自回归视频生成模型实现长视频一致性生成

Hugging Face Hub最新推出的MAGI 1模型标志着自回归视频生成技术的重要突破。该模型能够生成具有长期一致性的长视频内容，其性能与Wan视频生成模型相当，虽略逊于某些闭源商业模型，但作为开源解决方案展现出显著竞...

2025-04-21 talkingdev

最新研究通过两阶段优化策略，成功将自回归模型应用于个性化图像生成领域，其生成质量已达到当前主流的扩散模型水平。该论文提出创新性训练框架，第一阶段通过大规模数据集预训练构建基础模型，第二阶段采用针对性微...

2025-03-25 talkingdev

Baichuan Omni 1.5 是一款支持文本、图像、视频和音频输入以及文本和音频输出的开源全模态基础模型。该模型采用任意到任意（any-to-any）的设计风格，属于原生多模态模型的一种典型代表。其核心技术在于使用了交错的...

2025-03-15 talkingdev

近日，一项名为Block Diffusion的技术引起了广泛关注。该技术通过创新的方式在自回归模型（autoregressive models）和扩散模型（diffusion models）之间进行插值，为生成模型领域带来了新的突破。自回归模型以其序列...

2025-03-10 talkingdev

近日，一款轻量级的自回归流式文本转语音模型在GitHub上发布。该模型仅包含3000万参数，能够与任何语言模型（LLM）结合，使其具备理解和生成语音的能力，以响应通用查询。这一技术的核心优势在于，它无需对底层模型...

2025-03-05 talkingdev

VARGPT是一种多模态大语言模型（MLLM），其独特之处在于将视觉理解与生成功能统一在一个自回归框架内。这一创新设计使得VARGPT能够同时处理文本和图像数据，实现更高效的跨模态信息处理。通过自回归机制，VARGPT不仅...

2025-01-28 talkingdev

近日，一项关于CoT（Chain-of-Thought）推理在自回归图像生成领域的研究项目引发了广泛关注。该项目通过探索CoT推理的潜力，旨在提升自回归图像生成模型的表现。自回归模型在图像生成任务中通常依赖于逐步预测像素值...

2024-02-28 talkingdev

该项目引入了回声嵌入，这是一种新的策略，通过将未来令牌信息纳入其中，克服了自回归模型的一个关键限制。这是通过将输入重复两次来实现的，这显著提高了基准任务的性能，同时与其他嵌入增强方法兼容。