苹果研究员使用一种创新的闪存利用技术,为在具有有限内存的苹果设备上部署大型语言模型打开了关键突破。该方法使用窗口化和行列捆绑技术来最小化数据传输,最大化闪存吞吐量。它使得 AI 模型在标准处理器上运行速度...
Read More近日,GitHub仓库上线了一款全新的模型,可同时进行图像分割、识别和标注,超越了之前的能力。这个新模型的优势在于可以标记任何事物,不再局限于传统的图像和文本。目前,该模型已经在多个领域得到了广泛的应用,包...
Read MoreM3DBench是一个全新的广泛数据集,旨在改变AI的3D理解,填补多模态语言模型研究中的差距。它包括超过320,000个不同的指令响应对,集成了文本、图像和3D对象,为AI执行更广泛的现实3D任务铺平了道路。
Read More近日,一项名为LLMLingua的新项目在GitHub上开源。该项目使用对齐后的小型语言模型检测提示中的无关标记,并实现对黑盒LLM的压缩推理,从而实现了高达20倍的压缩比,且性能损失最小。简言之,LLMLingua能够帮助开发...
Read MoreDistil-Whisper 是 Whisper 的精简版本,比 Whisper 更快、更小,且在评估集上的误差不到1%。该技术是由 Google Brain 团队在 GitHub 上发布的。Distil-Whisper 采用了一些精简技术,包括低秩分解和知识蒸馏,以实现...
Read More本研究提出了一种深度学习方法,利用四个预训练的卷积神经网络模型来识别视频中的深度伪造人脸,可实现高精度检测。深度伪造技术已成为一种严重的威胁,对政治、社会和经济稳定造成了巨大的影响。该研究提出的方法可...
Read MoreGoogle的VideoPoet是一种开创性的语言模型,它在处理文本到视频,视频风格化甚至视频到音频转换等多种任务方面具有独特的能力。这种方法通过将多种视频生成技术融合到一个模型中而脱颖而出。VideoPoet的革命性技术为...
Read More