漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-07-07 talkingdev

Character.AI突破性技术:TalkingMachines实现实时音频驱动视频生成

Character.AI最新推出的TalkingMachines技术标志着实时视频生成领域的重大突破。该技术通过先进的音频驱动视频生成模型,仅需单张静态图像和语音输入,即可实时生成类似FaceTime的动态视频动画。这一创新结合了深度...

Read More
2025-07-05 talkingdev

CAMLBOY开源-用OCaml编写Game Boy模拟器

开发者近期公开了名为CAMLBOY的开源项目——一个基于OCaml语言构建的Game Boy浏览器模拟器。该项目通过将函数式编程语言OCaml编译为WebAssembly,实现了在浏览器环境中流畅运行经典掌机游戏的技术突破。技术博客详细剖...

Read More
2025-06-27 talkingdev

谷歌发布多模态开源模型Gemma 3n:支持文本、图像和音频输入

谷歌近日发布了具有重大意义的新开源权重模型Gemma 3n,该模型采用多模态设计,专为设备端优化。Gemma 3n能够接受文本、图像和音频作为输入,展现了强大的跨模态处理能力。为推广该模型,谷歌与AMD、Axolotl、Docker...

Read More
2025-06-23 talkingdev

Character.AI任命前Meta高管Karandeep Anand为新任CEO,加速多模态娱乐领域布局

人工智能交互平台Character.AI近日宣布重大人事变动,前Meta商业产品负责人Karandeep Anand正式出任首席执行官。Anand此前曾担任公司顾问,此次履新将主导该平台在多模态娱乐领域的战略扩张。作为Meta系资深专家,An...

Read More
2025-06-13 talkingdev

字节跳动Seedance 1.0登顶视频生成基准测试,超越谷歌Veo 3与OpenAI Sora

字节跳动旗下TikTok母公司最新发布的Seedance 1.0模型在文本生成视频(text-to-video)和图像生成视频(image-to-video)两项核心任务中均位列榜首,其性能表现超越谷歌Veo 3与OpenAI Sora等业界标杆。该模型仅需41...

Read More
2025-06-04 talkingdev

[开源]AirAP AirPlay服务器:实现Mac向iOS设备无线音频传输的创新方案

开发者neon443推出的AirAP项目解决了跨设备音频传输的痛点,该项目通过搭建AirPlay服务器,实现了从Mac向iOS设备的无线音频流传输。技术层面,AirAP利用苹果的AirPlay协议进行逆向工程开发,支持将Mac Mini等设备作...

Read More
2025-05-21 talkingdev

Google Meet推出实时语音翻译功能,DeepMind音频语言模型助力跨语言交流

谷歌视频会议平台Google Meet近日宣布推出实时语音翻译功能,该功能基于DeepMind开发的先进音频语言模型,能够在翻译过程中保留说话者的声音、语调和表达方式。这一技术的突破性在于它不仅实现了语言的即时转换,还...

Read More
2025-05-19 talkingdev

[论文推荐]WavReward:基于音频语言模型的对话系统评估新方法

来自arXiv的最新研究论文提出了一种名为WavReward的创新评估系统,该系统基于音频语言模型,专门用于评估语音对话系统在认知和情感指标上的表现。WavReward通过在ChatReward-30K数据集上进行训练,该数据集包含了大...

Read More
  1. Prev Page
  2. 5
  3. 6
  4. 7
  5. Next Page