漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-05-15 talkingdev

Stable Audio Open Small开源TTS模型,可在Arm CPU上运行

Stability AI近日开源了名为Stable Audio Open Small的文本转音频模型,该模型拥有3.41亿参数,专为在Arm架构的CPU上高效运行而优化。这一突破性技术使得在智能手机上生成11秒的音频片段仅需不到8秒的时间,极大地提...

Read More
2025-05-14 talkingdev

[论文推荐]大语言模型在多轮对话中容易迷失方向

最新研究发现,大语言模型(LLMs)虽然在单轮对话中表现优异,但在多轮对话场景下性能显著下降。这项发表在arXiv上的研究通过大规模模拟实验揭示了这一现象:在六项生成任务中,LLMs的多轮对话表现平均下降39%。研究...

Read More
2025-05-14 talkingdev

Ai2发布小型AI模型Olmo 2 1B,性能超越谷歌、Meta同规模模型

人工智能研究机构Ai2近日推出其最新研发的小型AI模型Olmo 2 1B,该模型拥有10亿参数,在关键基准测试中表现优异,超越了谷歌和Meta等科技巨头发布的同规模模型。这一突破性进展展示了小型化AI模型的巨大潜力,表明在...

Read More
2025-05-14 talkingdev

HF推出Whisper极速转录服务,速度提升8倍

人工智能平台Hugging Face近日发布了一项突破性的语音转录服务——Whisper极速端点(Fast Whisper Endpoint)。这项创新技术通过优化模型架构和计算资源分配,实现了高达8倍的转录速度提升,为语音处理领域树立了新的...

Read More
2025-05-14 talkingdev

微软计划在Azure AI Foundry上托管马斯克的Grok AI模型

微软正计划在其Azure AI Foundry平台上托管埃隆·马斯克开发的Grok人工智能模型,这一举措可能将于5月19日举行的微软Build开发者大会上正式宣布。尽管微软与OpenAI存在潜在竞争关系,但这一战略部署凸显了微软意图通...

Read More
2025-05-14 talkingdev

[开源]UCGM:统一框架实现连续生成模型的训练与采样

加州大学团队在GitHub开源了UCGM项目,为生成式AI领域带来突破性技术框架。该项目创新性地构建了统一架构,可同时支持多步(如扩散模型)和少步(如流模型)连续生成模型的训练与采样流程。通过数学层面的抽象整合,...

Read More
2025-05-14 talkingdev

视觉自回归方法EAR开源:无需量化的连续空间生成技术

近期GitHub开源项目EAR提出了一种突破性的视觉自回归生成方法,通过采用严格适当评分规则(如能量评分)绕过了传统量化步骤,直接在连续数据空间中进行生成。该技术摒弃了传统概率建模的约束,通过数学上严谨的评分...

Read More
2025-05-13 talkingdev

Miyagi Labs推出AI教育平台:将YouTube视频转化为互动课程

Miyagi Labs(YC W25)近日推出了一款AI驱动的教育平台,能够将YouTube上的教育视频转化为互动式在线课程。该平台利用大型语言模型(LLM)自动生成测验、练习题和实时反馈,从而将被动观看视频转变为主动学习。创始...

Read More
  1. Prev Page
  2. 9
  3. 10
  4. 11
  5. Next Page