漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-01-02 talkingdev

谷歌发布VideoPoet论文:合成高质量音视频

VideoPoet是一种语言模型,能够从各种各样的条件信号中合成高质量的视频和相应的音频。

Read More
2023-12-21 talkingdev

VideoPoet:谷歌语言模型在视频创作中大放异彩

Google的VideoPoet是一种开创性的语言模型,它在处理文本到视频,视频风格化甚至视频到音频转换等多种任务方面具有独特的能力。这种方法通过将多种视频生成技术融合到一个模型中而脱颖而出。VideoPoet的革命性技术为...

Read More
2023-12-13 talkingdev

UniDep推出,为Conda和Pip依赖关系提供统一的管理工具

最近,UniDep项目发布了一个开源的命令行工具,提供统一的Conda和Pip的依赖关系管理。它允许项目使用一个单独的requirements.yaml文件管理Conda和Pip依赖关系。UniDep可以通过一个命令安装Conda Pip和本地依赖项。与...

Read More
2023-11-29 talkingdev

Stable Video Diffusion发布,AI模型全面升级

Stability AI宣布其开源模型组合中将新增稳定视频传输技术Stable Video Diffusion。其AI模型组合已经涵盖了图像、语言、音频、3D和代码等多种模态。

Read More
2023-11-28 talkingdev

KskyVideo-文本到视频生成技术开源

Kandinsky Video采用双阶段文本到视频生成技术。首先,它通过关键帧来勾勒视频的故事情节,然后平滑过渡和移动,大大提高了视频质量并降低了计算要求。

Read More
2023-11-23 talkingdev

Stability AI推出Stable Video,未来内容创作新方向

Stability AI推出的Stable Video可以生成14帧视频,展示了内容创作的未来方向。该技术可以通过对少量关键帧的学习,生成完整的视频帧。通过这种方式,Stable Video为内容创作者提供了更高效的内容创作方式,并且大大...

Read More
2023-11-20 talkingdev

论文:改进视频问答的新方法

研究人员发现,大型语言模型在视频问答(VideoQA)中有时会出现错误,这是因为它们过于依赖语言而忽略了实际的视频内容。为了解决这个问题,研究人员引入了一种名为Flipped-VQA的新方法,这种方法使得这些模型更好地...

Read More
2023-11-14 talkingdev

新注意力机制DG-SCT提升多模态任务音视频模型

近日,研究人员开源了一个名为Dual-Guided Spatial-Channel-Temporal(DG-SCT)的新型注意力机制,可用于增强预先训练的音频-视频模型,以用于多模态任务。该机制具有两个分支,一个是空间通道分支,另一个是时间分...

Read More
  1. Prev Page
  2. 31
  3. 32
  4. 33
  5. Next Page