漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-01-22 talkingdev

WhisperSpeech: 倒置Whisper技术实现的文本转语音系统

WhisperSpeech是一种倒置Whisper技术实现的文本转语音系统。该系统目前仅在英语LibreLight数据集上进行了训练,但未来的版本将面向多种语言。在该仓库中提供了合成语音的示例。

Read More
2024-01-21 talkingdev

CPO策略提高翻译语言模型的能力

该项目提出了对比优化策略(CPO),以提高机器翻译中中等规模语言模型的性能。将该方法应用于13B参数ALMA模型,解决了监督微调的局限性,并取得了改进。CPO策略通过对模型的预训练进行增量式微调,有助于提高机器翻译...

Read More
2024-01-20 talkingdev

开源项目:针对新物体的实例分割模型

近日,一款名为Instance Segmentation for Novel Objects的GitHub开源项目备受关注。该项目旨在评估深度学习模型在实例分割方面对新物体的泛化能力。通过该项目,用户可以训练自己的实例分割模型,并对模型进行评估...

Read More
2024-01-20 talkingdev

Vlogger开源,AI系统提供分钟级别的短视频制作

近日,AI系统Vlogger在GitHub上推出了自己的仓库,为用户提供分钟级别的视频博客制作服务。Vlogger的制作流程分为四个阶段:脚本、演员、节目制作和配音,每个阶段都代表着视频制作的不同方面。用户只需要向Vlogger...

Read More
2024-01-16 talkingdev

AutoNarrate开源:用GPT4-V和TTS自动记录生活

最近,一位技术爱好者开发了一个名为AutoNarrate的GitHub Repo,它使用GPT4-V和最先进的文本转语音技术,加上一些屏幕录制软件,可以让像David Attenborough这样的人自动记录你生活中的所有事情。该技术可用于个人日...

Read More
2024-01-16 talkingdev

Surya开源,多语言OCR工具包提供准确的文本检测

排线检测是在图像或PDF中在文本行周围放置一个边界框的过程。Surya是一个非常强大的多语言排线检测模型,并已在GitHub上开源发布。该模型可以识别多种语言,包括中文、英文、法文、德文和印地文等,并且可以在不同的...

Read More
2024-01-15 talkingdev

MiniMA项目开源:高效压缩的语言模型

MiniMA项目致力于将大型语言模型压缩成小型学生模型的挑战。研究人员发现了不同学生模型的一致最优容量差,并利用这一发现创建了MiniMA,它是从一个7B教师模型中压缩出来的3B模型。MiniMA在效率和性能方面创造了新的...

Read More
2024-01-15 talkingdev

如何通过简单语言提升代码翻译效果

最近的一项研究表明,为代码添加简单语言解释显著提高了语言模型在19种不同编程语言之间的翻译效果,特别是对于复杂代码的翻译。这项研究由GitHub和OpenAI共同完成,GitHub在其代码库中添加了简单语言解释,并使用这...

Read More
  1. Prev Page
  2. 132
  3. 133
  4. 134
  5. Next Page