近日,轻量级视觉语言模型MoonDream迎来2.0版本重大更新。这款仅含20亿参数的VLM(Vision-Language Model)在最新测试中展现出惊人实力,其性能不仅超越多个同量级开源模型,甚至在部分基准测试中优于参数规模更大的...
Read More图灵公司最新发布的《最大化您的LLM投资回报率》白皮书揭示了影响大型语言模型(LLM)实际应用效果的关键因素。研究表明,模型性能不足往往并非源于算力限制,而是由训练目标偏差、评估体系缺陷和优化策略缺失等隐形...
Read More谷歌云在Next 25大会上宣布Vertex AI迎来重大更新,其视频、图像、语音及音乐生成模型获得增强功能,显著提升企业创意工作流的智能化水平。谷歌AI推出面向企业的专用AI代理解决方案,通过优化任务自动化流程实现生产...
Read More由Tianyi实验室发布的C3PO项目在GitHub开源了一种创新的测试时优化技术,该技术通过基于相似参考样本重新混合专家权重,显著提升了混合专家(Mixture-of-Experts,MoE)大语言模型的准确性。这一突破性方法不仅优化...
Read More近期发表于arXiv的研究ThinkLite-VL通过创新性地应用蒙特卡洛树搜索(MCTS)技术量化样本难度,在视觉语言模型(VLM)领域取得突破性进展。该方法仅需11,000个训练样本即可显著提升模型推理能力,且无需依赖知识蒸馏...
Read More近期,SilentView团队在GitHub开源了名为GigaTok的超大规模图像分词器项目,其参数量高达30亿(3B),在图像重建任务中展现出卓越性能。传统图像分词器在规模化过程中常面临性能崩溃问题,而GigaTok通过创新的解码器...
Read More当前大多数针对连续信号的生成模型由于计算限制,通常需要在潜在空间中进行操作。然而,这项研究引入了一系列级联结构,使得生成过程可以直接在像素空间中进行。这一创新不仅显著提升了生成效率,还消除了对预训练变...
Read MoreInteractVLM作为新一代视觉语言模型(VLM),实现了从2D到3D的交互推理跨越。该模型通过创新性地利用强大的基础模型,结合多视角渲染技术,将2D推理能力提升至3D空间,能够精准分析人类与物体在三维环境中的接触关系。...
Read More