漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品

VSP-LLM可视化语音识别框架开源

talkingdev • 2024-02-28

949469 views

Visual Speech Recognition with Language Models（VSP-LLM）框架在视觉语音识别和翻译中引入了新的方法，通过集成LLMs来高效处理视频输入，通过去重嵌入视觉特征和使用低秩适配器进行成本效益训练。

核心要点

GitHub上开源的Visual Speech Recognition with Language Models（VSP-LLM）框架
新方法：集成LLMs来高效处理视频输入
新方法：通过去重嵌入视觉特征和使用低秩适配器进行成本效益训练

#GitHub #视觉语音识别 #语言模型

Related posts