漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-03-12 talkingdev

DeepMind推出革命性图像-文本模型TIPS,刷新多领域性能标杆

DeepMind近日发布了名为TIPS的新型图像-文本模型,专为密集型和全局视觉任务设计。该模型通过结合对比学习与掩码图像建模技术,并利用合成字幕进行训练,显著提升了空间感知能力。在多项基准测试中,TIPS的表现均超...

Read More
2025-03-12 talkingdev

感知高效重建(GitHub Repo):文本查询与3D重建的融合

在计算机视觉和人工智能领域,3D重建技术一直是一个重要的研究方向。最近,GitHub上出现了一个名为“Perception Efficient Reconstruction”(PE3R)的项目,该项目将文本查询功能与从图像中进行3D重建的技术相结合,...

Read More
2025-03-12 talkingdev

YoloE:实现实时开放词汇检测的小型视觉模型

YoloE 是一种创新的小型视觉模型,能够通过多种方式进行提示,以实现开放词汇检测。这意味着用户可以使用类别、图像和文本来决定模型应该检测的内容。特别值得一提的是,YoloE 的运行速度高达 300 帧每秒(fps),使...

Read More
2025-03-12 talkingdev

MovieAgent:长镜头电影生成技术突破

近日,一项名为MovieAgent的创新技术引起了广泛关注。该系统通过结合多种生成模态,利用基于角色的提示(persona-based prompting)来确保生成内容的一致性和准确性。MovieAgent进一步使用Stable Diffusion视频模型...

Read More
2025-03-12 talkingdev

Perception Efficient Reconstruction:结合文本查询与3D图像重建的创新方法

近日,GitHub上发布了一项名为Perception Efficient Reconstruction的创新技术,该方法将文本查询能力与从图像中进行3D重建的技术相结合。该系统采用前馈模型(feed forward model),能够实现快速的三维重建。这一...

Read More
2025-03-11 talkingdev

Krep:高性能C语言字符串搜索工具发布

近日,一款名为Krep的高性能字符串搜索工具在技术社区引发关注。Krep完全由C语言编写,旨在提供高效的字符串搜索功能,适用于处理大规模文本数据的场景。与传统的字符串搜索工具相比,Krep通过优化算法和内存管理,...

Read More
2025-03-11 talkingdev

视频修复模型VideoPainter

最新发布的视频修复模型VideoPainter,通过高效结合背景信息,能够处理任意长度的视频。该模型使用了专用的数据集和基准进行训练和评估,不仅在基础修复任务上表现出色,还展现了在高级视频处理和生成相关训练数据方...

Read More
2025-03-11 talkingdev

无人机避障新突破:基于深度强化学习的轻量级系统发布

近日,一个基于深度强化学习的轻量级避障系统在GitHub上发布,专为固定翼无人机(UAVs)设计。该系统结合了AirSim和JSBSim两大仿真平台,旨在提升无人机在高速飞行中的避障能力。通过深度强化学习算法,无人机能够在...

Read More
  1. Prev Page
  2. 11
  3. 12
  4. 13
  5. Next Page