漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-04-03 talkingdev

Geometry Crafter:基于视频扩散模型的动态几何一致性估计技术

Geometry Crafter 是一种前沿的几何估计模型,它创新性地利用视频扩散作为先验信息,实现了时间维度上的一致性几何估计。该技术能够以约1.5帧/秒的速度完成完整点云估计,同时具备精确的相机姿态估计能力。这一突破...

Read More
2025-04-02 talkingdev

[开源]自动驾驶场景中的Flow Prediction框架UniOcc发布

UniOcc是一个专为自动驾驶场景设计的统一框架,专注于交通流预测和运动轨迹预报。该框架的创新性在于支持多数据集联合训练,并能进行真实环境与合成场景的跨域评估,为自动驾驶系统的决策规划提供更可靠的预测能力。...

Read More
2025-04-02 talkingdev

[开源]Easi3R:无需训练即可从DUSt3R中解耦运动估计(GitHub项目)

Easi3R是一项突破性的3D视觉系统,专门针对高动态场景的三维重建进行了优化。该系统通过创新的运动物体掩蔽技术,将移动物体与背景分离学习,从而实现了比现有方法更精确的全场景重建。这一技术解决了动态场景重建中...

Read More
2025-04-02 talkingdev

[论文推荐]Open-Reasoner-Zero:探索基础模型在强化学习推理中的规模化应用

强化学习(RL)领域长期存在一个关键问题:是否需要一个足够强大的基础模型来支持涌现式推理能力的形成?最新研究Open-Reasoner-Zero通过系统性实验验证了基础模型对RL推理的重要作用。该研究在多种规模化的RL训练场...

Read More
2025-04-02 talkingdev

视频运动分割技术新突破:Dino与SAM2实现密集像素追踪

近期,视频运动分割技术迎来重要进展,研究人员通过整合Dino和SAM2模型,成功将密集像素追踪应用于长期分割任务。这项技术突破解决了传统方法在复杂场景下跟踪精度不足的问题,通过像素级运动分析显著提升了分割稳定...

Read More
2025-04-01 talkingdev

[开源]SAMWISE视频分割技术:为SAM模型赋予开放词汇分割与长视频语义追踪能力

GitHub开源项目SAMWISE实现了计算机视觉领域的重大突破,通过扩展Segment Anything Model(SAM)的核心能力,使其具备开放词汇分割(open-vocabulary segmentation)和长视频精确语义追踪功能。该技术突破性地解决了...

Read More
2025-04-01 talkingdev

[开源]Video-R1:基于规则的强化学习方法实现高效视频推理

Video-R1项目提出了一种创新的基于规则的强化学习(RL)方法,专门用于视频推理任务。该方法采用了GRPO(Generalized Reinforcement Learning with Policy Optimization)的时间变体,并引入了新的数据集来支持训练...

Read More
2025-03-31 talkingdev

[开源]Mobile-VideoGPT:轻量级多模态视频模型,参数不足10亿却支持边缘设备实时推理

近日,GitHub上开源了一个名为Mobile-VideoGPT的轻量级多模态视频模型,其参数量不足10亿(1B),却通过创新的双视觉编码器和令牌剪枝技术,实现了在边缘设备上的实时推理能力。这一突破性进展为移动端和物联网设备...

Read More
  1. Prev Page
  2. 9
  3. 10
  4. 11
  5. Next Page