视觉语音识别的相关内容 - 漫话开发者

2024-02-28 talkingdev

VSP-LLM可视化语音识别框架开源

Visual Speech Recognition with Language Models（VSP-LLM）框架在视觉语音识别和翻译中引入了新的方法，通过集成LLMs来高效处理视频输入，通过去重嵌入视觉特征和使用低秩适配器进行成本效益训练。