DeepSeek-VL 是一个专注于现实世界应用的全新开源视觉语言模型。该模型特别针对多样化的数据进行了优化,包括来自网页截图、图表以及 OCR(光学字符识别)数据的处理。DeepSeek-VL 的设计目标是提高在复杂和多样化数...
Read MorePhi-3系列的小型模型迎来了14B版本的升级。此次升级的14B版本表现出色,其性能与Command R(104B模型)相媲美。Phi-3 14B模型的改进使其在处理复杂任务和数据分析方面有了显著提升,成为行业内备受瞩目的新星。Huggi...
Read MoreScale AI近日完成了由Accel领投的10亿美元F轮融资,之前的投资者也参与了本轮融资。作为现代人工智能数据浪潮的推动者,Scale AI所提供的服务需求十分巨大,公司在这一领域具有独特的优势。这笔巨额融资将进一步加强...
Read More在大型视觉语言模型(LVLMs)中,输出结果往往更倾向于语言模型的先验知识,而非实际的视觉输入。这一项目通过引入“校准”和“去偏采样”技术,有效减少了这种偏差。这些技术使得模型在处理各种任务时,能够生成更加准...
Read MoreLeMeViT是一种新的方法,通过使用可学习元令牌来降低视觉Transformer的计算成本。这些元令牌能够高效地捕捉关键信息,从而显著提高推理速度。与传统的视觉Transformer相比,LeMeViT在保持高精度的同时,大幅减少了计...
Read More理解3D场景中物体的位置是一个具有挑战性的问题。然而,通过使用语言引导的3D理解,我们可以精确地为3D空间中的物体标记语义标签。语言引导的3D理解是一种新的技术,它允许我们通过使用特定的语言描述,更准确地确定...
Read More人工智能在生成艺术2D图像方面的运用早已让人们感到趣味盎然和富有创造力。而这项新的工作,将这种能力扩展到了3D领域,通过高斯喷射技术,以文本输入作为导向,使艺术场景生成更上一层楼。这种技术的出现,无疑为艺...
Read More最近,一种名为LeMeViT的新方法用于降低视觉变换器中的计算成本,其核心策略是使用可学习的元令牌。这些令牌能够有效地捕获关键信息,从而提高推理速度。视觉变换器在计算机视觉领域有着广泛的应用,然而其计算成本...
Read More