漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-11-11 talkingdev

开源|Meta发布Omnilingual ASR,支持1600+语言的语音识别技术

Meta旗下Facebook Research团队在GitHub开源了Omnilingual ASR多语言语音识别系统,这项突破性技术首次实现对全球1600余种语言的语音转文本支持,其中数百种语言是现有ASR技术从未覆盖的濒危语种。该系统采用创新的...

Read More
2025-11-11 talkingdev

Meta推出全语种自动语音识别系统,支持超1600种语言

Meta近日发布了名为'全语种自动语音识别'(Omnilingual Automatic Speech Recognition)的AI模型套件,这项突破性技术将自动语音识别能力扩展到1600多种语言,覆盖全球绝大多数已知语言体系。该系统的核心创新在于其...

Read More
2025-10-28 talkingdev

Decart推出实时唇形同步API:打造会说话的虚拟数字人

人工智能初创公司Decart与语音技术领军企业ElevenLabs合作,推出开源实时唇形同步API技术。该技术通过实时音频流输入,可生成精准同步的虚拟人像视频与语音输出,支持任意语音引擎与自定义角色配置。这项突破性技术...

Read More
2025-10-27 talkingdev

突破性发现:Claude神经元实现跨模态视觉特征识别,SVG与ASCII艺术触发相同概念响应

Anthropic研究团队在《Circuits Updates – October 2025》中披露了令人振奋的发现:其大型语言模型Claude的内部神经元展现出跨模态理解能力。实验表明,当模型处理文字“眼睛”时激活的特定神经元,在遇到用@符号排列...

Read More
2025-10-21 talkingdev

开源|DeepSeek-OCR:突破长上下文压缩瓶颈,日生成20万页训练数据

DeepSeek-AI团队最新开源的DeepSeek-OCR项目在长上下文压缩技术领域实现重要突破。该项目通过创新的光学二维映射技术,探索将长文本上下文进行高效压缩的可行性。系统由DeepEncoder核心引擎和DeepSeek3B-Moe-A570M解...

Read More
2025-10-17 talkingdev

Gemini 3.0通过A/B测试意外曝光:SVG生成质量成关键指标

近日,开发者通过Google AI Studio的A/B测试功能,意外捕捉到尚未正式发布的Gemini 3.0模型踪迹。该测试以SVG矢量图形生成作为核心评估标准,通过对比不同版本模型的输出质量,间接验证了新一代模型在复杂结构化数据...

Read More
2025-10-03 talkingdev

开源|Vision-Zero:基于视觉博弈策略的自监督VLM训练框架

Vision-Zero项目提出了一种突破性的视觉语言模型训练范式,通过生成式对抗游戏实现自监督学习。该框架的核心创新在于利用任意图像对构建竞争性视觉游戏,使模型在无需人工标注的情况下,通过策略性自我博弈持续优化...

Read More
2025-09-23 talkingdev

阿里发布通义千问Qwen3-Omni:开源多模态AI模型可处理文本、音频、图像及视频输入并生成文本与语音输出

阿里巴巴正式推出通义千问Qwen3-Omni系列开源人工智能模型,该模型实现了对文本、音频、图像和视频四类模态数据的统一处理能力,并能同步生成文本与语音输出。作为中国科技企业对抗美国科技巨头的重要技术突破,Qwen...

Read More
  1. Prev Page
  2. 2
  3. 3
  4. 4
  5. Next Page