近日,开发者dipampaul17在GitHub上发布了KVSplit项目,该项目通过差异化精度的KV缓存量化技术,在苹果芯片(M1/M2/M3/M4)上实现了更长上下文的LLM推理。研究发现,LLM推理中的KV缓存中,键(Keys)和值(Values)...
Read MoreOpenThinkIMG项目为视觉语言模型(VLMs)提供了革命性的视觉工具调用框架,其核心技术突破体现在三个方面:首先,通过动态推理机制实现多工具链式调用,使AI能根据图像内容自主选择处理工具;其次,创新的V-ToolRL强化...
Read MoreHugging Face最新技术报告揭示了视觉语言模型(VLM)领域的重大突破。研究表明,通过架构优化,新一代模型在保持较小参数量的同时,显著提升了多模态理解能力。这些进步主要体现在三个方面:复杂场景的推理能力、动态...
Read More苹果公司近日在GitHub开源了CVPR 2025论文《FastVLM: Efficient Vision Encoding for Vision Language Models》的官方实现代码库。该项目提出了一种高效的视觉编码方法,旨在优化视觉语言模型(VLM)中的视觉信息处...
Read More研究人员Sampatt近期进行了一项引人注目的实验,将AI智能体O3与GeoGuessr地理猜谜游戏的人类专家进行对决。GeoGuessr作为基于街景图像的地理定位游戏,对参与者的空间推理和地理知识储备提出极高要求。实验结果显示...
Read MoreNVIDIA近期在Hugging Face Hub上发布了一系列文本与图像嵌入模型(Radio系列),其性能在多项基准测试中达到或超越当前热门的SigLIP模型。这些模型通过先进的神经网络架构优化了多模态数据的向量表示能力,可广泛应...
Read More近日,一项名为Chain of Draft的创新推理策略在arXiv预印本平台引发关注。该技术通过精简推理路径设计,在保持与经典Chain-of-Thought方法相当甚至更高准确率的前提下,显著降低了大型语言模型的token消耗量。实验数...
Read More近期,Hugging Face发布了一项名为AutoRound的后训练量化技术,该技术能够在保持模型性能和效率的同时,显著提升低比特量化模型的精度。这一突破性进展为边缘计算和移动端设备部署轻量级AI模型提供了新的可能性,解...
Read More