语音翻译的相关内容 - 漫话开发者

2026-06-10 talkingdev

Gemini 3.5 Live Translate：实时语音翻译，消除尴尬停顿，带来自然对话体验

谷歌近日发布了Gemini 3.5 Live Translate，这是一个全新的音频模型，专注于实现实时语音到语音的翻译。与传统的语音翻译相比，该模型支持超过70种语言，并致力于消除翻译过程中常见的尴尬停顿，同时保持语调和情感...

2026-05-11 talkingdev

OpenAI近日发布了一份工程指南，详细介绍了如何使用其最新优化的模型gpt-realtime-translate构建实时语音翻译系统。该模型专为同声传译场景设计，与传统的轮次语音交互不同，它能实现对语音流进行实时、连续的翻译处...

2025-05-21 talkingdev

谷歌视频会议平台Google Meet近日宣布推出实时语音翻译功能，该功能基于DeepMind开发的先进音频语言模型，能够在翻译过程中保留说话者的声音、语调和表达方式。这一技术的突破性在于它不仅实现了语言的即时转换，还...

2025-03-31 talkingdev

法国人工智能研究机构Kyutai最新推出突破性语音互译系统，该系统基于多流Transformer架构，可实现高保真度的实时语音到语音翻译。该技术突破传统文本中转翻译模式，直接在声学层面进行跨语言转换，并保持原说话者的...

2024-02-21 talkingdev

近日，一项名为ZeroSwot的新方法被提出，通过独特的技术，成功突破了语音和文本之间的差异以及数据缺乏等难题，实现了提高语音翻译准确度的目标。具体来说，ZeroSwot通过使用语音识别数据训练语音编码器，然后将其与...

2024-01-16 talkingdev

Meta最近展示了一项新的技术，可以实现不同语言之间的语音克隆和翻译。该技术可以通过对一段语音进行分析和深度学习来实现。在语音克隆方面，该技术可以将一个人的语音克隆到另一个人身上，从而实现更加自然的语音交...

2023-10-24 talkingdev

本文介绍了SALMONN，这是一种独特的AI模型，它将文本理解与处理各种音频输入（从语音到音乐）的能力相结合。 SALMONN不仅在训练过的音频任务（如语音识别）中表现出色，而且展示了令人印象深刻的新技能，例如将语音...

2023-09-26 talkingdev

近日，Spotify推出一项由AI驱动的语音翻译功能，该功能能够利用原播客者的声音在其他语言中复制播客节目。这项技术依赖于OpenAI的Whisper进行转录，很可能用于声音复制，使得翻译能够保持播客者独特的声音。这一创新...