特斯拉最新的Optimus机器人片段显示其在其测试设施中平稳行走。该机器人目前可以以每秒0.6米的速度行走,相比机器人上次亮相时增加了30%的速度。特斯拉的目标是让机器人最终能够达到每小时五英里的速度。文章中提供...
Read More最近,一种名为多视角扩散++的扩散模型引起了人们的注意。该模型可以生成一个对象的多个视图,然后将它们拼接在一起,形成一个引人入胜的3D版本。这个模型的基本原理是将对象分解成许多微小的部分,然后在每个部分上...
Read MoreGemini Pro 1.5是Gemini系列的一次巨大升级。该模型具有100万令牌上下文大小,远大于Claude 2.1的20万和gpt-4-turbo的12.8万令牌上下文大小。虽然该模型仍然可能漏掉一些东西并产生错误细节,但它能够处理并提取短视...
Read More近日,一种新的Temporal Dilated Video Transformer (TDViT)技术被发布,旨在提高稠密视频任务的分析能力,如逐帧视频对象检测。该技术采用多头自注意力机制,可进行多层次、多尺度的特征提取,同时利用空间和时间的...
Read MoreHuggingFace Hub最近发布了全新的视频模型Sora,现在提供了30篇相关的论文。这些论文包括了从模型架构到训练技巧等方面的研究,为研究人员和开发者提供了很好的参考。此外,这些论文还包括了Sora model在计算机视觉...
Read MoreMeta的副总裁兼首席人工智能科学家Yann LeCun曾表示,我们需要更多的数据有效的自监督模型来实现通用智能。这项工作是朝着这个目标迈出的一步,通过对视频进行训练,让模型理解世界的方方面面。这些模型已经可以公开...
Read More研究人员开发了一种新的视频压缩方法,使用扩散模型生成高质量的视频帧,同时保持低数据速率。该方法将视频压缩与机器学习相结合,能够在保持视频质量的同时减少数据传输的成本。研究人员在测试中发现,这种方法能够...
Read More近日,一种名为Video Annotator的框架已经在GitHub上发布。该框架通过将领域专家直接融入注释过程中,利用零样本学习和主动学习技术提高模型的精度和效率。这种注释方法不仅提高了模型的分类准确度,而且可以更好地...
Read More近期,一种新型的视频语言模型已经问世,可以回答长达数百万词的视频问题。该模型采用环形关注机制和精细调整的7B参数模型,能够在检索基准测试中表现极其准确,胜过商业化视频语言模型。
Read More