漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-11-11 talkingdev

开源|Meta发布Omnilingual ASR,支持1600+语言的语音识别技术

Meta旗下Facebook Research团队在GitHub开源了Omnilingual ASR多语言语音识别系统,这项突破性技术首次实现对全球1600余种语言的语音转文本支持,其中数百种语言是现有ASR技术从未覆盖的濒危语种。该系统采用创新的...

Read More
2025-10-30 talkingdev

OpenAI发布gpt-oss-safeguard:可定制安全策略的推理模型

OpenAI最新推出的gpt-oss-safeguard系列模型(包含1200亿和200亿参数版本)标志着AI安全技术的重要突破。该模型创新性地允许开发者在推理阶段直接应用定制化安全策略,无需像传统方法那样依赖数千个标注样本训练分类...

Read More
2025-10-21 talkingdev

BERT竟是单步文本扩散?谷歌DeepMind新研究揭示语言模型本质关联

近日,谷歌DeepMind团队发布的Gemini Diffusion实验性语言模型引发学界关注。该模型突破传统GPT逐词生成范式,采用扩散模型技术通过逐步去噪的方式直接生成完整文本块。研究人员在研读《大语言扩散模型》论文时发现...

Read More
2025-10-17 talkingdev

论文推荐|ScaleRL:大型语言模型强化学习计算扩展的首个系统性研究框架

来自大规模实验的研究团队发布了名为ScaleRL的创新框架,这是首个针对大型语言模型强化学习计算扩展的系统性研究方法。该研究通过超过40万GPU小时的实验数据,构建了可预测的S型计算-性能曲线,揭示了RL训练中算法改...

Read More
2025-10-15 talkingdev

表征自编码器革新扩散Transformer:多模态预训练模型驱动图像生成质量突破

近期发布的表征自编码器(RAE)技术为潜在扩散模型带来重大升级。该技术通过使用DINO、SigLIP或MAE等预训练编码器替代传统变分自编码器(VAE),结合学习型解码器构建高维潜在空间。实验表明,这种新型架构能显著提...

Read More
2025-10-02 talkingdev

谷歌发布Tunix:基于JAX的LLM后训练工具库,加速大模型生产部署

谷歌开发者博客最新推出开源项目Tunix,这是一个基于JAX框架原生设计的专业化工具库,致力于简化大型语言模型从预训练到完全对齐、生产就绪的完整流程。该库为开发者提供了一套全面且友好的工具集,支持大规模模型对...

Read More
2025-08-24 talkingdev

深度解析:Claude Code为何成为代码生成领域的性能标杆

近期,AI研究机构MinusX发布的技术分析报告《Decoding Claude Code》引发开发者社区广泛关注。该报告通过逆向工程和架构分析揭示了Anthropic公司开发的Claude代码生成模型的核心技术优势。报告指出,Claude采用创新...

Read More
2025-08-13 talkingdev

AI2发布MolmoAct:首个支持3D空间推理的动作理解模型

艾伦人工智能研究所(AI2)近日开源了MolmoAct模型,这是首个基于Molmo框架构建的、专注于三维空间推理的动作理解系统。该模型通过创新的三维空间表征学习方法,实现了对复杂指令的精准环境交互能力,在SpatialQA等...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page