漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-08-15 talkingdev

Meta发布DINOv3:可扩展的自监督视觉模型,多领域实现SOTA性能

Meta公司最新推出的DINOv3是一种可扩展的自监督学习模型,在包括网络图像和卫星图像在内的多种图像领域均实现了最先进的性能表现。这一突破性技术采用自监督学习范式,无需依赖大量标注数据即可从海量无标签图像中学...

Read More
2025-03-31 talkingdev

[论文推荐]Test-Time Visual In-Context Tuning:一种仅需测试样本即可实现视觉模型自适应调优的新方法

近日,一项名为Test-Time Visual In-Context Tuning(TT-VICT)的创新性研究在计算机视觉领域引发广泛关注。该技术突破性地提出仅利用测试样本即可实现视觉上下文学习模型(VICL)的自适应调优,有效解决了传统方法...

Read More
2024-12-25 talkingdev

Qwen 发布新一代视觉推理模型 QvQ,引领视觉AI新纪元

近期,Qwen公司宣布推出了其最新研发的视觉推理模型QvQ,这款模型在视觉理解和推理方面取得了重大突破。QvQ利用深度学习技术,通过分析图像内容,对图像中的对象、场景和动作进行精准识别与推理。QvQ模型的推理能力...

Read More
2024-12-15 talkingdev

字节跳动新型算法:Patch规模优于Token

字节跳动近期发布了一项名为'Byte Latent Transformer'的新型算法,在大规模模型训练中,采用了Patch而非Token作为基本的处理单元。该算法对于图像和视频内容的理解与分析展现出了卓越的性能,尤其适用于处理高分辨...

Read More
2024-06-21 talkingdev

CIFAR-10,在3.29秒内实现图像分类94%准确率

CIFAR-10是一项图像分类基准测试。这段代码提供了一个训练配置,能在惊人的短时间内实现良好的性能。CIFAR-10数据集是机器学习领域常用的图像分类数据集,包含了10个类别的60000张32x32彩色图像,其中50000张用于训...

Read More
2024-06-21 talkingdev

苹果为提升文字与图像AI性能,开源了20个机器学习模型

苹果公司最近向Hugging Face开源AI仓库贡献了20个Core Machine Learning模型,以此来提升公有模型在图像分类和深度分割方面的性能。此举紧随苹果发布Ferret大型语言模型和四个OpenELMs到Hugging Face的步伐。这一举...

Read More
2024-05-02 talkingdev

论文:CLIP预训练的Mamba模型,零样本图像分类的新标杆

近日,一个全新的Mamba模型引起了工业界的广泛关注。该模型通过使用对比性语言-图像预训练(CLIP)的方式进行训练,展现出在零样本图像分类任务上的出色效率和性能。据了解,零样本分类任务一直是计算机视觉领域的一个...

Read More
2024-03-06 talkingdev

SURE-提高神经网络图像分类置信度

SURE技术是一种将多种技术结合起来,提高深度神经网络对于图像分类任务中不确定性预测可靠性的新方法。该方法通过模型置信度估计、模型不确定性估计和置信度校准三个步骤来实现置信度的提高。SURE技术的应用将大大提...

Read More
  1. Next Page