VLM的相关内容 - 漫话开发者

2025-04-26 talkingdev

[开源] Magnitude：基于视觉大模型的Web应用测试框架，开源发布

开发者Anders和Tom近日在Hacker News上宣布推出Magnitude，一个完全开源的、基于视觉大模型（VLM）的端到端Web应用测试框架。该框架旨在解决传统浏览器代理测试工具速度慢、成本高且结果不一致的问题。Magnitude采用...

2025-04-23 talkingdev

Physical Intelligence团队近期对其研发的家用清洁机器人Pi-0.5进行了测试，结果显示该机器人在全新的、未见过的环境中表现卓越。这一成果得益于团队采用的视觉语言模型（VLM）训练与动作标记化（action tokenizatio...

2025-04-21 talkingdev

由GitHub开源项目REVERSE提出的创新性解决方案，为视觉语言模型(VLM)的幻觉问题提供了突破性进展。该项目构建了一个完整的训练与推理管道，使VLM能够自主检测并修正其输出中的幻觉内容。该技术通过建立内部一致性验...

2025-04-18 talkingdev

Meta公司近日重磅推出四项人工智能领域的重要技术成果：1）高性能图像编码器，可优化视觉数据的特征提取效率；2）视觉语言模型（VLM），实现跨模态理解与生成；3）基于联合嵌入预测架构（JEPA）的3D物体定位模型，突...

2025-04-16 talkingdev

近日，轻量级视觉语言模型MoonDream迎来2.0版本重大更新。这款仅含20亿参数的VLM（Vision-Language Model）在最新测试中展现出惊人实力，其性能不仅超越多个同量级开源模型，甚至在部分基准测试中优于参数规模更大的...

2025-04-15 talkingdev

近期发表于arXiv的研究ThinkLite-VL通过创新性地应用蒙特卡洛树搜索（MCTS）技术量化样本难度，在视觉语言模型（VLM）领域取得突破性进展。该方法仅需11,000个训练样本即可显著提升模型推理能力，且无需依赖知识蒸馏...

2025-04-15 talkingdev

InteractVLM作为新一代视觉语言模型(VLM)，实现了从2D到3D的交互推理跨越。该模型通过创新性地利用强大的基础模型，结合多视角渲染技术，将2D推理能力提升至3D空间，能够精准分析人类与物体在三维环境中的接触关系。...

2025-03-19 talkingdev

MaTVLM是一个创新的混合视觉语言模型，通过将Mamba-2层集成到预训练的视觉语言模型（VLM）中，显著提升了其收敛速度与整体性能。这一技术突破不仅在学术界引起了广泛关注，也为工业界的应用带来了新的可能性。视觉语...