漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-05-21 talkingdev

Google Meet推出实时语音翻译功能,DeepMind音频语言模型助力跨语言交流

谷歌视频会议平台Google Meet近日宣布推出实时语音翻译功能,该功能基于DeepMind开发的先进音频语言模型,能够在翻译过程中保留说话者的声音、语调和表达方式。这一技术的突破性在于它不仅实现了语言的即时转换,还...

Read More
2025-03-31 talkingdev

[论文推荐]Kyutai发布高保真实时语音互译系统

法国人工智能研究机构Kyutai最新推出突破性语音互译系统,该系统基于多流Transformer架构,可实现高保真度的实时语音到语音翻译。该技术突破传统文本中转翻译模式,直接在声学层面进行跨语言转换,并保持原说话者的...

Read More
2024-02-21 talkingdev

论文:零数据训练,成功突破语音翻译难题

近日,一项名为ZeroSwot的新方法被提出,通过独特的技术,成功突破了语音和文本之间的差异以及数据缺乏等难题,实现了提高语音翻译准确度的目标。具体来说,ZeroSwot通过使用语音识别数据训练语音编码器,然后将其与...

Read More
2024-01-16 talkingdev

Meta展示无缝语音克隆和翻译技术

Meta最近展示了一项新的技术,可以实现不同语言之间的语音克隆和翻译。该技术可以通过对一段语音进行分析和深度学习来实现。在语音克隆方面,该技术可以将一个人的语音克隆到另一个人身上,从而实现更加自然的语音交...

Read More
2023-10-24 talkingdev

SALMONN:AI模型能够理解声音世界

本文介绍了SALMONN,这是一种独特的AI模型,它将文本理解与处理各种音频输入(从语音到音乐)的能力相结合。 SALMONN不仅在训练过的音频任务(如语音识别)中表现出色,而且展示了令人印象深刻的新技能,例如将语音...

Read More
2023-09-26 talkingdev

Spotify借助AI技术推出克隆和翻译播客者音频的新功能

近日,Spotify推出一项由AI驱动的语音翻译功能,该功能能够利用原播客者的声音在其他语言中复制播客节目。这项技术依赖于OpenAI的Whisper进行转录,很可能用于声音复制,使得翻译能够保持播客者独特的声音。这一创新...

Read More