Xmodel-VLM是一种针对消费级GPU服务器优化的视觉语言模型。为解决高昂的服务成本限制了大规模多模态系统的应用,这个10亿规模的模型采用了LLaVA范式进行模态对齐。这是一种新的方法,它优化了视觉和语言之间的协同工...
Read MoreUniFL是一种通过一系列复杂的反馈步骤来提高扩散模型输出质量的方法。这些步骤旨在提升生成图像的视觉质量、美感和偏好对齐。这些技术与底层模型无关,可用于提升任何图像生成模型的性能。
Read More近期,一项新项目在GitHub上发布,该框架通过结合多级残差适配器和视觉-语言对齐损失函数,将CLIP模型重新应用于医疗异常检测。CLIP模型原本是由OpenAI开发的一种多模态预训练模型,能够理解图像和文本之间的关系。...
Read MoreScoreHMR公司近日推出了一种新颖的3D人体姿态和形状重建方法。该技术利用扩散模型的强大能力,避免了传统优化技术,采用了得分引导方式将人体模型与图像观测数据对齐。这一创新方法不仅提高了重建的准确性,还大大减...
Read MoreOpenAI的超对齐团队开发了一款名为Transformer Debugger的工具,以支持对小型语言模型的特定行为进行调查。该工具将自动可解释性技术与稀疏自编码器相结合。
Read MoreVideoElevator引入了一种新的方法,通过利用文本到图像模型的优势来增强文本到视频扩散模型。这种即插即用的方法将增强过程分为了调整时间运动和提升空间质量两个部分,从而产生了帧质量和文本对齐得到了提高的视频...
Read MoreDistilabel是为AI工程师设计的框架,使用人类反馈的强化学习方法(例如奖励模型和DPO)对大型语言模型进行对齐。 它主要专注于LLM微调和适应性。 Distilabel可协助数据收集,清洗和训练。
Read MoreKahneman-Tversky Optimization(KTO)是一种新的方法,用于训练AI模型以更好地与人类思维对齐。通过利用Kahneman&Tversky的前景理论概念,KTO侧重于最大化效用而不仅仅是偏好可能性。这种新的方法可以帮助AI模型更...
Read More