Google最近推出了一种新的文本到视频模型Lumiere,该模型可以将图像和风格作为输入,并使用一种新颖的“空时UNet”同时扩散所有内容。该模型采用了深度学习技术,可以将文本内容转换为相对应的视频,并且不需要任何人...
Read MoreLag-Llama是一种基于Transformer的模型,可在零样本和少样本泛化方面表现出色,并在广泛的时间序列数据上进行了预训练。通过对少量数据进行微调,它超越了现有深度学习方法的最新性能,标志着时间序列分析基础模型的...
Read MoreGoogle最近发布了一段7分钟的视频,介绍了他们的Brain2Music项目,该项目旨在通过读取人脑信号来生成音乐。该项目使用深度学习技术来识别人脑中与音乐有关的信号,并将其转换为音乐的元素,如节拍、旋律和和弦。该技...
Read More目标检测是识别物体及其边界框的过程。通常只能为训练前选择的一组固定物体进行检测。本研究介绍了一种实时方法,可以进行开放词汇目标检测,这意味着它可以检测任何在运行时指定的物体组合的边界框。该方法使用了一...
Read More近日,研究人员开发出了一种名为PAM的工具,它使用音频语言模型对音频质量进行评估,无需参考曲目或专业培训。PAM通过深度学习算法,将音频数据转化为分布式表示形式,并将其与质量分数进行关联。据研究人员介绍,PA...
Read More近日,一款名为SliceGPT的新一代模型压缩工具问世。据悉,该工具可以适用于从Phi-2等小型模型到大型模型的多种规模,并可对模型的权重矩阵进行剪枝处理,最大程度保持模型质量的同时,实现模型参数的大幅度减少,以...
Read MoreTensorDict是一个非常实用的小工具,它可以让你在PyTorch中使用字典和张量。使用TensorDict可以提高代码的可读性和可用性,同时保持良好的性能。 TensorDict提供了一种简单的方法来将张量转换为字典,并且可以像字...
Read MoreSyncTalk是逼真的人物形象中的突破。它克服了以往在同步面部身份、唇部运动和表情方面遇到的挑战。SyncTalk使用最新的深度学习技术,通过从少量的样本中学习,以逼真的方式生成高质量的人物形象。 SyncTalk可以应用...
Read More