Macaw-LLM:将图像、视频、音频和文本数据结合的多模态语言模型
talkingdev • 2023-06-01
1733237 views
在 CLIP、Whisper 和 LLaMA 的基础上,Macaw-LLM 探索性地开发了一种多模态语言模型,无缝结合了图像、视频、音频和文本数据。 以下是该新闻的三个核心要点: - Macaw-LLM 是一种多模态语言模型 - 它结合了图像、视频、音频和文本数据 - 该模型在 CLIP、Whisper 和 LLaMA 的基础上建立
talkingdev • 2023-06-01
1733237 views
在 CLIP、Whisper 和 LLaMA 的基础上,Macaw-LLM 探索性地开发了一种多模态语言模型,无缝结合了图像、视频、音频和文本数据。 以下是该新闻的三个核心要点: - Macaw-LLM 是一种多模态语言模型 - 它结合了图像、视频、音频和文本数据 - 该模型在 CLIP、Whisper 和 LLaMA 的基础上建立