漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-03-17 talkingdev

Luma推出多模态模型预训练新方法:Inductive Moment Matching

Luma首席科学家宋嘉明,作为最早为扩散模型开发加速算法的先驱,近日发布了新的多模态预训练方法——Inductive Moment Matching(IMM)。这一新方法不仅超越了传统扩散模型在样本质量上的表现,还实现了10倍以上的效率...

Read More
2025-03-17 talkingdev

[开源] Visual reasoning models:提升视觉语言模型推理能力的新工具包

近日,GitHub上发布了一个名为'Visual reasoning models'的开源工具包,旨在训练视觉语言模型(VLMs)以提升其基础逻辑和推理能力。该工具包由groundlight团队开发,主要专注于增强模型在处理复杂视觉数据时的理解和...

Read More
2025-03-14 talkingdev

[开源]统一视觉解码:REF-VLM革新多模态大模型任务

近日,GitHub上发布了一个名为REF-VLM的开源项目,该项目通过引入基于三元组的结构化表示,统一了多模态大语言模型(LLMs)中的视觉解码任务。多模态LLMs是当前人工智能领域的前沿技术,能够在处理视觉和文本信息时...

Read More
2025-03-14 talkingdev

[论文推荐]多模态表示学习(MMRL)推动视觉-语言模型的小样本适应

多模态表示学习(MMRL)技术通过引入一个共享的表示空间,显著提升了视觉-语言模型在处理多模态信息时的交互能力,同时保持了模型的泛化性能。这一技术不仅优化了多模态数据的融合与理解,还为小样本学习(few-shot...

Read More
2025-03-13 talkingdev

[开源] Motion Anything:基于注意力掩码建模的多模态运动生成技术

近期,Motion Anything项目通过引入基于注意力的掩码建模(Attention-based Mask Modeling)技术,显著提升了条件运动生成的能力。这项技术不仅在空间控制上实现了更精细的调节,还在时间维度上提供了更高的灵活性,...

Read More
2025-03-12 talkingdev

YoloE:实现实时开放词汇检测的小型视觉模型

YoloE 是一种创新的小型视觉模型,能够通过多种方式进行提示,以实现开放词汇检测。这意味着用户可以使用类别、图像和文本来决定模型应该检测的内容。特别值得一提的是,YoloE 的运行速度高达 300 帧每秒(fps),使...

Read More
2025-03-12 talkingdev

MovieAgent:长镜头电影生成技术突破

近日,一项名为MovieAgent的创新技术引起了广泛关注。该系统通过结合多种生成模态,利用基于角色的提示(persona-based prompting)来确保生成内容的一致性和准确性。MovieAgent进一步使用Stable Diffusion视频模型...

Read More
2025-03-12 talkingdev

[论文推荐] 基于硬负样本加权的对比学习构建大规模语言和视觉嵌入模型

近年来,随着多模态学习的发展,构建能够同时处理视觉和语言任务的嵌入模型成为研究热点。然而,传统基于对比损失的方法在处理硬负样本时往往表现不佳,导致模型在复杂检索任务中效果受限。近期,一项研究提出了一种...

Read More
  1. Prev Page
  2. 10
  3. 11
  4. 12
  5. Next Page