低资源语言的相关内容 - 漫话开发者

2026-01-26 talkingdev

开源|字节跳动Seed团队发布Stable-DiffCoder：基于扩散模型的轻量级代码大语言模型

字节跳动Seed团队在GitHub上开源了Stable-DiffCoder项目，这是一个基于扩散模型（Diffusion Model）构建的轻量级代码大语言模型（Code DLLM）家族。该项目创新性地将扩散模型的生成范式引入代码建模领域，通过“块扩...

2025-11-11 talkingdev

Meta旗下Facebook Research团队在GitHub开源了Omnilingual ASR多语言语音识别系统，这项突破性技术首次实现对全球1600余种语言的语音转文本支持，其中数百种语言是现有ASR技术从未覆盖的濒危语种。该系统采用创新的...

2025-11-11 talkingdev

Meta近日发布了名为'全语种自动语音识别'（Omnilingual Automatic Speech Recognition）的AI模型套件，这项突破性技术将自动语音识别能力扩展到1600多种语言，覆盖全球绝大多数已知语言体系。该系统的核心创新在于其...

2025-05-05 talkingdev

谷歌研究院近日宣布启动一项名为Amplify的全球数据收集计划，通过与各地区本土专家合作，旨在提升人工智能在服务不足地区的适用性。该计划聚焦非主流语言和文化场景下的数据缺口，采用社区共建模式采集高质量标注数...

2024-05-24 talkingdev

Cohere最新发布的Aya项目包含3种不同规模的模型，能够使用101种语言进行对话，其中许多语言资源极为稀缺。Aya项目的推出对于开放和普及研究社区来说是一个巨大的进步。通过这一项目，研究人员和开发者能够更广泛地获...

2023-11-15 talkingdev

本文介绍了一种名为FinGPT的语言模型，该模型是在芬兰语上进行训练的，研究人员发现通过使用一些技巧，数据重复可以产生极为平滑的损失曲线。这可能是解决互联网上语言数据不足问题的一种简单方法。