近日,GitHub上发布了一个名为DETRIS的参数高效调优框架,该框架专注于提升多模态任务中视觉特征的传播效率。DETRIS通过密集互连和文本适配器(text adapters)来增强视觉特征的传播,特别是在编码器未对齐的情况下...
Read More近期,软件工程领域出现了一种新的开发实践——利用大型语言模型(LLM)来实施测试驱动开发(TDD)。这种方法通过机器学习技术的强大能力,先编写测试用例,再开发通过测试的代码,能够提升代码质量和开发效率。大型语...
Read MoreAndrej Karpathy最近在GitHub上发布了一个新的仓库,概述了他正在进行的一个新课程。这个课程涉及到构建一个能够讲述故事的对齐语言模型。课程包括视频讲座、代码以及其他学习材料。Karpathy的这个项目是一次尝试,...
Read More近日,一种名为OVFormer的新方法在开放词汇视频实例分割(VIS)领域引起了广泛关注。该方法解决了该领域的关键问题,改善了嵌入对齐,并利用基于视频的训练来提高时间一致性。OVFormer的核心优势在于它的开放性词汇...
Read MoreSuri是一个由20,000份长篇文本和复杂指令配对的数据集。这个数据集的设计目的是为了提高AI的写作约束执行能力。开发Suri的团队引入了指令性ORPO(I-ORPO),这是一种利用合成破坏指令进行反馈的对齐方法。通过这个方...
Read MoreEvalAlign是一种新型的用于改进文本到图像生成模型评估的指标。与现有的评估指标不同,EvalAlign提供了细粒度的准确性和稳定性。它主要关注图像的真实性和文本与图像的对齐性。与其他评估指标不同的是,EvalAlign不...
Read MoreAndrej Karpathy发布了一个新的仓库,这是他正在进行的一个新课程的大纲。课程涉及构建一个可以讲述故事的对齐语言模型。课程包括视频讲座、代码和其他学习材料。这是一个主要围绕人工智能和机器学习的课程,强调对...
Read More谷歌近日发布了最新模型Gemini 1.5的技术报告。报告详细介绍了此次升级的主要内容和改进之处,但并未透露过多关于模型或所使用数据的信息。然而,报告中对评估和安全措施的详尽描述,让我们得以深入了解大规模对齐的...
Read MoreXmodel-VLM是一种针对消费级GPU服务器优化的视觉语言模型。为解决高昂的服务成本限制了大规模多模态系统的应用,这个10亿规模的模型采用了LLaVA范式进行模态对齐。这是一种新的方法,它优化了视觉和语言之间的协同工...
Read MoreUniFL是一种通过一系列复杂的反馈步骤来提高扩散模型输出质量的方法。这些步骤旨在提升生成图像的视觉质量、美感和偏好对齐。这些技术与底层模型无关,可用于提升任何图像生成模型的性能。
Read More