预训练模型的相关内容 - 漫话开发者

2026-02-25 talkingdev

开源|Moonshine开源语音识别模型：边缘设备上的STT精度超越WhisperLargev3

一家名为Moonshine AI的小型初创公司（团队仅六人，月GPU预算低于10万美元）近日在GitHub上开源了其自动语音识别（ASR）项目Moonshine。该项目针对边缘设备优化，提供了快速且高精度的语音转文本（STT）模型。据开发...

2025-11-11 talkingdev

Meta旗下Facebook Research团队在GitHub开源了Omnilingual ASR多语言语音识别系统，这项突破性技术首次实现对全球1600余种语言的语音转文本支持，其中数百种语言是现有ASR技术从未覆盖的濒危语种。该系统采用创新的...

2025-10-21 talkingdev

近日，谷歌DeepMind团队发布的Gemini Diffusion实验性语言模型引发学界关注。该模型突破传统GPT逐词生成范式，采用扩散模型技术通过逐步去噪的方式直接生成完整文本块。研究人员在研读《大语言扩散模型》论文时发现...

2025-10-15 talkingdev

近期发布的表征自编码器（RAE）技术为潜在扩散模型带来重大升级。该技术通过使用DINO、SigLIP或MAE等预训练编码器替代传统变分自编码器（VAE），结合学习型解码器构建高维潜在空间。实验表明，这种新型架构能显著提...

2025-06-25 talkingdev

NVIDIA实验室最新发布的PS3技术，通过选择性编码（selective encoding）实现了高达4K分辨率的视觉预训练，为VILA-HD模型提供了技术基础。这一突破显著提升了计算机视觉领域的高分辨率数据处理能力，解决了传统方法在...

2025-06-02 talkingdev

近日，Kiln公司发布了一篇关于大型语言模型(LLM)微调的深度指南，引发了开发者社区的广泛讨论。文章详细探讨了在什么情况下需要对预训练的大型语言模型进行微调，以及如何开始这一过程的技术细节。随着ChatGPT等大模...

2025-05-01 talkingdev

最新研究表明，通过在大语言模型（LLM）的残差流中实施简单的表征控制向量干预，可显著调节其推理性能。这项发表于arXiv的突破性研究揭示了神经网络内部表征与逻辑推理能力的直接关联，为可解释AI领域提供了新工具。...

2025-04-28 talkingdev

Meta研究院推出的Pippo项目突破传统三维重建技术限制，开发了一套无需预训练模型的虚拟人体生成系统。该系统仅需输入单张二维人像，即可输出具有高保真细节的多视角3D人体表征，其核心技术可能涉及神经辐射场（NeRF...