视频的相关内容 - 漫话开发者

2024-02-26 talkingdev

特斯拉分享Optimus机器人行走技术提升的更多画面

特斯拉最新的Optimus机器人片段显示其在其测试设施中平稳行走。该机器人目前可以以每秒0.6米的速度行走，相比机器人上次亮相时增加了30%的速度。特斯拉的目标是让机器人最终能够达到每小时五英里的速度。文章中提供...

2024-02-23 talkingdev

最近，一种名为多视角扩散++的扩散模型引起了人们的注意。该模型可以生成一个对象的多个视图，然后将它们拼接在一起，形成一个引人入胜的3D版本。这个模型的基本原理是将对象分解成许多微小的部分，然后在每个部分上...

2024-02-22 talkingdev

Gemini Pro 1.5是Gemini系列的一次巨大升级。该模型具有100万令牌上下文大小，远大于Claude 2.1的20万和gpt-4-turbo的12.8万令牌上下文大小。虽然该模型仍然可能漏掉一些东西并产生错误细节，但它能够处理并提取短视...

2024-02-21 talkingdev

近日，一种新的Temporal Dilated Video Transformer (TDViT)技术被发布，旨在提高稠密视频任务的分析能力，如逐帧视频对象检测。该技术采用多头自注意力机制，可进行多层次、多尺度的特征提取，同时利用空间和时间的...

2024-02-20 talkingdev

HuggingFace Hub最近发布了全新的视频模型Sora，现在提供了30篇相关的论文。这些论文包括了从模型架构到训练技巧等方面的研究，为研究人员和开发者提供了很好的参考。此外，这些论文还包括了Sora model在计算机视觉...

2024-02-19 talkingdev

Meta的副总裁兼首席人工智能科学家Yann LeCun曾表示，我们需要更多的数据有效的自监督模型来实现通用智能。这项工作是朝着这个目标迈出的一步，通过对视频进行训练，让模型理解世界的方方面面。这些模型已经可以公开...

2024-02-19 talkingdev

研究人员开发了一种新的视频压缩方法，使用扩散模型生成高质量的视频帧，同时保持低数据速率。该方法将视频压缩与机器学习相结合，能够在保持视频质量的同时减少数据传输的成本。研究人员在测试中发现，这种方法能够...

2024-02-19 talkingdev

OpenAI发布了一款新的视频生成模型，具有惊人的质量。目前，红队测试人员可以使用它进行测试。

2024-02-16 talkingdev

近日，一种名为Video Annotator的框架已经在GitHub上发布。该框架通过将领域专家直接融入注释过程中，利用零样本学习和主动学习技术提高模型的精度和效率。这种注释方法不仅提高了模型的分类准确度，而且可以更好地...

2024-02-16 talkingdev

近期，一种新型的视频语言模型已经问世，可以回答长达数百万词的视频问题。该模型采用环形关注机制和精细调整的7B参数模型，能够在检索基准测试中表现极其准确，胜过商业化视频语言模型。