音频的相关内容 - 漫话开发者

2025-07-07 talkingdev

Character.AI突破性技术：TalkingMachines实现实时音频驱动视频生成

Character.AI最新推出的TalkingMachines技术标志着实时视频生成领域的重大突破。该技术通过先进的音频驱动视频生成模型，仅需单张静态图像和语音输入，即可实时生成类似FaceTime的动态视频动画。这一创新结合了深度...

2025-07-05 talkingdev

开发者近期公开了名为CAMLBOY的开源项目——一个基于OCaml语言构建的Game Boy浏览器模拟器。该项目通过将函数式编程语言OCaml编译为WebAssembly，实现了在浏览器环境中流畅运行经典掌机游戏的技术突破。技术博客详细剖...

2025-06-27 talkingdev

谷歌近日发布了具有重大意义的新开源权重模型Gemma 3n，该模型采用多模态设计，专为设备端优化。Gemma 3n能够接受文本、图像和音频作为输入，展现了强大的跨模态处理能力。为推广该模型，谷歌与AMD、Axolotl、Docker...

2025-06-23 talkingdev

人工智能交互平台Character.AI近日宣布重大人事变动，前Meta商业产品负责人Karandeep Anand正式出任首席执行官。Anand此前曾担任公司顾问，此次履新将主导该平台在多模态娱乐领域的战略扩张。作为Meta系资深专家，An...

2025-06-13 talkingdev

字节跳动旗下TikTok母公司最新发布的Seedance 1.0模型在文本生成视频（text-to-video）和图像生成视频（image-to-video）两项核心任务中均位列榜首，其性能表现超越谷歌Veo 3与OpenAI Sora等业界标杆。该模型仅需41...

2025-06-04 talkingdev

开发者neon443推出的AirAP项目解决了跨设备音频传输的痛点，该项目通过搭建AirPlay服务器，实现了从Mac向iOS设备的无线音频流传输。技术层面，AirAP利用苹果的AirPlay协议进行逆向工程开发，支持将Mac Mini等设备作...

2025-05-21 talkingdev

谷歌视频会议平台Google Meet近日宣布推出实时语音翻译功能，该功能基于DeepMind开发的先进音频语言模型，能够在翻译过程中保留说话者的声音、语调和表达方式。这一技术的突破性在于它不仅实现了语言的即时转换，还...

2025-05-19 talkingdev

来自arXiv的最新研究论文提出了一种名为WavReward的创新评估系统，该系统基于音频语言模型，专门用于评估语音对话系统在认知和情感指标上的表现。WavReward通过在ChatReward-30K数据集上进行训练，该数据集包含了大...