EMIFF是一种创新的基于摄像头的3D检测框架,用于车辆基础设施协同物体检测。它使用多尺度交叉注意力和相机感知通道掩蔽来纠正来自相机异步性的姿态误差。EMIFF的开源代码现在可以在GitHub上获得。
Read More据悉,字节跳动开发了一种名为 MegaScale 的系统,可用于训练大规模并行的大型语言模型。该系统成功地在 12,288 个 GPU 上训练了一个 175B 的语言模型,达到了 55.2% 的模型 FLOPs 利用率,相当惊人。此外,字节跳动...
Read More该项目介绍了一个多视角3D重建框架,不需要先验场景深度知识。它智能地选择最相关的源帧,使其适用于包括大规模室外和俯视建筑环境在内的各种场景。这项技术的突破将极大地提高3D重建的效率和精度,可应用于数字娱乐...
Read MoreVisual Speech Recognition with Language Models(VSP-LLM)框架在视觉语音识别和翻译中引入了新的方法,通过集成LLMs来高效处理视频输入,通过去重嵌入视觉特征和使用低秩适配器进行成本效益训练。
Read More该项目引入了回声嵌入,这是一种新的策略,通过将未来令牌信息纳入其中,克服了自回归模型的一个关键限制。这是通过将输入重复两次来实现的,这显著提高了基准任务的性能,同时与其他嵌入增强方法兼容。
Read MoreMeta最近发布了一款名为Pearls的强化学习库,该库已经在拍卖竞标系统、推荐引擎等应用中进行了部署,可以用于研究和部署。Pearls提供了一些在强化学习领域中非常实用的工具,例如,一些用于环境模拟和数据前处理的工...
Read More世界体积感知多摄像头驾驶场景生成器(WoVoGen)是一个创新系统,旨在为自动驾驶创建逼真的街景视频。该系统使用机器学习和计算机视觉技术来生成高质量的街景视频,以帮助自动驾驶车辆更好地识别和适应不同的路况。W...
Read More谷歌工程师和科学家开发了一个新的代码库,名为CPP Gemma推理引擎。与llama.cpp类似,该代码库允许在SIMD CPU架构上进行推理。该工具的目的是鼓励实验和使用昨天发布的Gemma模型。
Read More