视频的相关内容 - 漫话开发者

2023-11-24 talkingdev

Andrej Karpathy的入门级LLM科普介绍视频

本次大型语言模型介绍将讨论它们是什么，它们的发展方向，与现有操作系统的比较和类比以及该领域的一些安全相关挑战。大型语言模型是如今人工智能研究中一个非常重要的部分，近年来得到了广泛关注和应用。它们的出现...

2023-11-23 talkingdev

Stability AI推出的Stable Video可以生成14帧视频，展示了内容创作的未来方向。该技术可以通过对少量关键帧的学习，生成完整的视频帧。通过这种方式，Stable Video为内容创作者提供了更高效的内容创作方式，并且大大...

2023-11-22 talkingdev

LLaVa是一种从文本模型训练多模型的方法。现在它可以用于视频。基于Vicuna的结果模型非常强大，可以轻松实现视频摘要和字幕的最新表现。

2023-11-20 talkingdev

研究人员发现，大型语言模型在视频问答（VideoQA）中有时会出现错误，这是因为它们过于依赖语言而忽略了实际的视频内容。为了解决这个问题，研究人员引入了一种名为Flipped-VQA的新方法，这种方法使得这些模型更好地...

2023-11-20 talkingdev

微软在2023年的Microsoft Ignite活动上推出了Azure AI语音文本转换成语音化身，使用户可以使用文本转语音技术创建能够以多种语言说出预设文本的逼真化身。深度伪造技术是一种利用人工智能技术生成逼真但是虚假的视频...

2023-11-20 talkingdev

往往情况下，当你使用生成模型生成一张图片后，它不完全是你想要的。然而，使用同一模型对图像进行编辑是极具挑战性的。Meta有一个关键的想法，即将所有生成视为指令，从而使编辑功能出现。这与新的模型架构的简单性...

2023-11-19 talkingdev

Frigate是一款基于树莓派和Docker的开源网络视频录制器，可以实现实时AI目标检测。该软件使用了TensorFlow、OpenCV和Kubernetes等技术，支持多种摄像头和视频流格式，并且可以在树莓派或者其他设备上运行。用户可以...

2023-11-17 talkingdev

本项目引入一种名为“distance indexing”的新方法，以改进传统的视频帧插值技术（VFI），该技术通常难以准确预测物体的运动。这种方法通过向模型提供有关物体在帧之间移动的距离的明确信息，来明确学习目标并减少模糊...

2023-11-14 talkingdev

近日，研究人员开源了一个名为Dual-Guided Spatial-Channel-Temporal（DG-SCT）的新型注意力机制，可用于增强预先训练的音频-视频模型，以用于多模态任务。该机制具有两个分支，一个是空间通道分支，另一个是时间分...

2023-11-13 talkingdev

研究人员发现，尽管大型语言模型是为文本设计的，但它们可以成为处理视觉任务的强大工具。使用文本训练的模型的部分来直接处理图像和视频，研究人员在各种视觉任务中取得了改进的结果。该研究结果表明，基于文本的AI...