视觉模型的相关内容 - 漫话开发者

2025-06-09 talkingdev

微软推出GUI-Actor：AI代理无需坐标即可操作屏幕界面

微软研究院最新提出的GUI-Actor技术，彻底改变了AI代理与图形用户界面（GUI）的交互方式。这项突破性技术摒弃了传统依赖像素坐标预测的方法，转而采用注意力机制直接解析屏幕截图内容，使AI能够像人类一样'理解'界面...

2025-04-07 talkingdev

GitHub开源项目Object Counting提出了一种突破性的全自动零样本物体计数方法，该方法通过融合深度特征图与自注意力机制，在FSC147数据集上实现了当前最先进的计数精度。该技术的核心创新在于：1）利用预训练视觉模型...

2025-04-04 talkingdev

清华大学智能图形学与几何计算实验室（THU-MIG）在GitHub上开源了名为Large Small Net（LSNet）的新型轻量级视觉模型家族。该模型创新性地借鉴了人类视觉系统的动态异尺度处理能力（"See Large, Focus Small"机制）...

2025-03-31 talkingdev

近日，一项名为Test-Time Visual In-Context Tuning（TT-VICT）的创新性研究在计算机视觉领域引发广泛关注。该技术突破性地提出仅利用测试样本即可实现视觉上下文学习模型（VICL）的自适应调优，有效解决了传统方法...

2025-03-28 talkingdev

近日，一项利用注意力图量化视觉模型内部偏差的新指标在GitHub上开源。该技术通过分析模型在识别过程中的注意力分布，能够有效识别出导致偏差的混淆特征，突破了传统基于群体准确率差异的评估局限。这项名为Attentio...

2025-03-12 talkingdev

YoloE 是一种创新的小型视觉模型，能够通过多种方式进行提示，以实现开放词汇检测。这意味着用户可以使用类别、图像和文本来决定模型应该检测的内容。特别值得一提的是，YoloE 的运行速度高达 300 帧每秒（fps），使...

2025-03-04 talkingdev

近日，GitHub上的开源项目LightningDiT引起了广泛关注。该项目通过将潜在空间与视觉模型对齐，成功解决了扩散模型中的一些关键挑战。LightningDiT不仅在ImageNet-256数据集上取得了最先进的成果，还显著加快了训练速...

2024-09-27 talkingdev

Together AI推出了Llama 3.2版本，用户可以在Together Playground上免费体验这一全新多模态模型。该模型在训练、微调和推理方面支持200多个模型，包括最新的Llama 3.2视觉模型。Llama 3.2在生产规模下实现了4倍的速...