VSP-LLM可视化语音识别框架开源
talkingdev • 2024-02-28
949469 views
Visual Speech Recognition with Language Models(VSP-LLM)框架在视觉语音识别和翻译中引入了新的方法,通过集成LLMs来高效处理视频输入,通过去重嵌入视觉特征和使用低秩适配器进行成本效益训练。
核心要点
- GitHub上开源的Visual Speech Recognition with Language Models(VSP-LLM)框架
- 新方法:集成LLMs来高效处理视频输入
- 新方法:通过去重嵌入视觉特征和使用低秩适配器进行成本效益训练