视觉任务的相关内容 - 漫话开发者

2025-03-10 talkingdev

Distractor Aware SAM：解决视觉分割中的干扰问题

Segment Anything (SAM) 是视觉分析与分割领域的领先模型，但在处理视频中外观相似的对象时，可能会出现混淆。为了解决这一问题，Distractor Aware SAM 应运而生。该技术通过引入额外的记忆增强和训练机制，有效应对...

2025-02-26 talkingdev

近日，R1-OneVision作为一种多功能的大型多模态模型，正式在GitHub上发布。该模型通过整合视觉与文本数据，在数学、科学、深度图像理解及逻辑推理等复杂任务中表现出色。R1-OneVision的设计旨在解决传统单一模态模型...

2024-07-01 talkingdev

Vision Agent是一个强大的库，旨在帮助您利用代理框架生成代码，以解决您的视觉任务。该库可用于各种需要处理图像和视频的应用场景，包括但不限于计算机视觉、机器学习、人工智能等领域。借助Vision Agent，您可以轻...

2024-06-20 talkingdev

微软最近发布了一套名为Florence-2的MIT许可的小型视觉语言模型（VLMs）。这套模型在图像标注、边界识别和分类等任务上，表现出色，大大超过了许多体型更大的模型。Florence-2模型的发布，标志着微软在人工智能和机...

2024-06-07 talkingdev

Together AI团队发布了一款名为DragonFly Vision的全新视觉语言模型（VLM）。该模型因其高效的架构在处理极高分辨率图像方面表现卓越。DragonFly Vision采用了一系列先进的技术，包括深度学习和神经网络优化，从而实...

2024-05-30 talkingdev

近年来，全球范围内儿童近视率的上升引起了广泛关注。研究表明，与疫情前相比，孩子们眼球病理性伸长的情况有所增加。疫情期间，孩子们从现实课堂和游戏场所转向了虚拟会议和数字设备，导致他们花费在屏幕和其他近距...

2024-05-23 talkingdev

Mamba作为一种强大的Transformer替代方案，因其能够在保持性能的同时使用更少的FLOPs而备受关注。然而，最新研究表明，对于某些应用来说，Mamba可能并非必需。该研究通过实验表明，一个经过精心调优的CNN基线在一系...

2024-05-23 talkingdev

近日，MiniCMP-V发布了一个基于Llama 3训练的新版本。这款8B模型在多个任务上表现出色，甚至超越了许多闭源的专有模型。新版本的MiniCMP-V不仅支持30种不同的语言，还在光学字符识别（OCR）和视觉问答（visual quest...