Depth Anything是一种新的单目深度估计方法,它依赖于约6200万张图像的大规模数据集来提高其精度。通过使用数据增强和预训练编码器的辅助监督,该模型实现了令人印象深刻的泛化能力,并在深度估计方面树立了新的标准...
Read More针对图像-文本训练中使用的视觉基础模型,研究人员提出了一种名为ViSFT的新方法,以提高其性能。ViSFT使用类似于语言模型中的微调的两阶段过程来增强视觉基础模型。首先,该模型使用大规模的无监督预训练来学习图像...
Read MoreOMG-Seg是一种新的模型,可以使用单个高效的系统执行各种图像和视频分割任务。与使用每个任务的不同模型的传统方法不同,OMG-Seg从图像语义到交互式视频分割处理所有内容,是一个一站式解决方案,降低了复杂性并增强...
Read MoreMeta最近推出了一系列令人难以置信的音乐和声音生成模型,并发布了推理代码。这些模型是通过机器学习训练的,可以生成高质量的音乐和声音效果。该公司表示,这些模型可以用于广泛的应用场景,包括游戏声音、虚拟现实...
Read More研究人员开发了一种新方法,称为相互蒸馏学习(MDPR),通过结合两种不同的技术,增强了人物再识别。该方法利用两个网络相互学习,一个网络学习到了身份特征,另一个网络学习到了外观特征,从而提高了人物再识别的准确...
Read MoreAlphaCodium推出了一种新颖的方法来增强LLMs的代码生成能力。这种多阶段、基于测试的迭代过程显著提高了像GPT-4这样的模型在解决复杂编程问题时的准确性,如在CodeContests数据集上所展示的。
Read MoreMeta的CEO马克·扎克伯格正在进入开发人工通用智能(AGI)的竞争,旨在增强Meta的应用程序和用户体验。他强调了AI人才和计算能力的需求,并考虑采用开源方法进行AI开发,与其他公司更封闭的方法形成对比。
Read More微软目前正在 Windows 11 的 Dev Channel 预览版中测试一个更新,该更新会自动在至少拥有 27 英寸屏幕尺寸和 1920 像素宽度的宽屏设备上启动 AI 功能 Copilot。这一试验旨在增强 Windows 中的 AI 集成,是微软更广泛...
Read More