视频理解的相关内容 - 漫话开发者

2026-05-21 talkingdev

开源|字节跳动Lance：3B参数原生统一多模态模型，图像视频理解与生成编辑全搞定

字节跳动近日在GitHub上开源了一款名为Lance的原生统一多模态模型，以其仅3B（30亿）激活参数的设计，在AI领域引起了广泛关注。该模型打破了传统多模态模型需要为不同任务（如图像理解、视频生成、图像编辑等）分别...

2026-05-06 talkingdev

上下文窗口的大小一直是大型语言模型在处理长文本任务时的关键瓶颈。近日，初创公司Subquadratic宣布推出一款全新的AI模型，其上下文窗口达到了惊人的1200万token（约合1200万个单词或代码标记），远超过当前主流模...

2026-04-29 talkingdev

NVIDIA日前发布了名为Nemotron 3 Nano Omni的全新多模态模型，标志着其在长上下文多模态智能领域的重要进展。该模型专为文档、音频和视频分析设计，在MMlongbench-Doc和VoiceBench等多个权威基准测试中均取得了业界...

2026-02-27 talkingdev

近日，由Saksham和Ishan共同创立的YC W26项目Cardboard正式亮相，这是一款革命性的AI视频编辑工具。用户只需用自然语言描述需求，如“从这段原始素材中制作一个60秒的回顾”或“将其剪成20秒的广告”，Cardboard便能自动...

2025-07-24 talkingdev

TimeScope是一个全新的开源基准测试工具，专门用于评估视觉大模型在处理长视频方面的能力。它不仅测试模型的检索能力，还涵盖了视频合成、时间定位以及细粒度运动分析等多个维度，从而提供对模型时间理解能力的全面...

2025-05-13 talkingdev

Hugging Face最新技术报告揭示了视觉语言模型(VLM)领域的重大突破。研究表明，通过架构优化，新一代模型在保持较小参数量的同时，显著提升了多模态理解能力。这些进步主要体现在三个方面：复杂场景的推理能力、动态...

2025-04-29 talkingdev

Valeo AI最新发布了两项突破性技术：VaViM自回归视频模型和VaVAM驾驶轨迹预测模型。VaViM通过时空令牌序列预测技术，实现了对连续视频帧的高精度建模；而VaVAM则创新性地将学习到的视频表征通过模仿学习转化为可执行...

2025-04-21 talkingdev

VistaDPO项目通过创新的分层优化方法，在视频与文本对齐领域取得重要突破。该项目构建了一个包含7200个样本的全新数据集，专门用于优化空间和时间维度的偏好学习。其核心技术在于采用分层次的优化策略，能够同时处理...