漫话开发者 - UWL.ME

2023-12-21 talkingdev

TokenAny-可对任何事物进行标记

近日，GitHub仓库上线了一款全新的模型，可同时进行图像分割、识别和标注，超越了之前的能力。这个新模型的优势在于可以标记任何事物，不再局限于传统的图像和文本。目前，该模型已经在多个领域得到了广泛的应用，包...

2023-12-21 talkingdev

M3DBench是一个全新的广泛数据集，旨在改变AI的3D理解，填补多模态语言模型研究中的差距。它包括超过320,000个不同的指令响应对，集成了文本、图像和3D对象，为AI执行更广泛的现实3D任务铺平了道路。

2023-12-21 talkingdev

可靠机器人公司成功完成了一架货运无人机的试飞。这架飞机来自联邦快递公司，试飞总共持续了12分钟。这已经是可靠机器人公司的第二次自动试飞。该初创公司正在努力获得美国联邦航空局的全面批准。其系统将限制远程飞...

2023-12-21 talkingdev

近日，一项名为LLMLingua的新项目在GitHub上开源。该项目使用对齐后的小型语言模型检测提示中的无关标记，并实现对黑盒LLM的压缩推理，从而实现了高达20倍的压缩比，且性能损失最小。简言之，LLMLingua能够帮助开发...

2023-12-21 talkingdev

Distil-Whisper 是 Whisper 的精简版本，比 Whisper 更快、更小，且在评估集上的误差不到1%。该技术是由 Google Brain 团队在 GitHub 上发布的。Distil-Whisper 采用了一些精简技术，包括低秩分解和知识蒸馏，以实现...

2023-12-21 talkingdev

该项目介绍了时空超采样（STSS），这是一个显著改进实时渲染高分辨率、高帧率内容的框架。该项目已在GitHub上发布，用户可以从中获取源代码并进行使用。

2023-12-21 talkingdev

本研究提出了一种深度学习方法，利用四个预训练的卷积神经网络模型来识别视频中的深度伪造人脸，可实现高精度检测。深度伪造技术已成为一种严重的威胁，对政治、社会和经济稳定造成了巨大的影响。该研究提出的方法可...

2023-12-21 talkingdev

Google的VideoPoet是一种开创性的语言模型，它在处理文本到视频，视频风格化甚至视频到音频转换等多种任务方面具有独特的能力。这种方法通过将多种视频生成技术融合到一个模型中而脱颖而出。VideoPoet的革命性技术为...