多模态的相关内容 - 漫话开发者

2025-07-02 talkingdev

华为开源PanguAI模型及推理技术加速全球AI市场布局

华为宣布将开源其PanguAI系列中的两个核心模型及部分推理技术，这一战略举措旨在推动全球人工智能技术的普及与应用。作为中国AI领域的领军企业，华为此次开源不仅展示了其在自然语言处理和多模态AI领域的技术积累，...

2025-06-28 talkingdev

多模态大模型的演进不断突破我们对技术能力的认知边界。从最初的QwenVL到最新的Qwen2.5 VL，研究团队在提升模型理解图像内容的能力方面取得了显著进展。如今，团队正式推出全新模型Qwen VLo，这是一个统一的多模态理...

2025-06-27 talkingdev

谷歌近日发布了具有重大意义的新开源权重模型Gemma 3n，该模型采用多模态设计，专为设备端优化。Gemma 3n能够接受文本、图像和音频作为输入，展现了强大的跨模态处理能力。为推广该模型，谷歌与AMD、Axolotl、Docker...

2025-06-25 talkingdev

谷歌最新推出的Imagen 4模型在图像内文本生成这一长期困扰行业的技术难题上取得重大突破。该模型通过先进的深度学习架构优化，显著提升了生成图像中文本元素的准确性和自然度，解决了以往AI生成图像中文字扭曲、语义...

2025-06-24 talkingdev

来自arXiv的最新研究论文提出SeLoRA（Spectral-efficient Low-Rank Adaptation）技术，通过将LoRA适配器重新参数化为稀疏谱子空间，在保持模型表达能力的前提下显著减少冗余参数。该技术在多模态任务测试中表现突出...

2025-06-23 talkingdev

人工智能交互平台Character.AI近日宣布重大人事变动，前Meta商业产品负责人Karandeep Anand正式出任首席执行官。Anand此前曾担任公司顾问，此次履新将主导该平台在多模态娱乐领域的战略扩张。作为Meta系资深专家，An...

2025-06-20 talkingdev

一项发表于arXiv的突破性研究提出新型端到端变分编码器架构，通过自动学习韵律特征替代传统手工设计的音高输入，显著提升生成式口语语言模型的自然度表现。该技术摒弃了人工特征工程，直接对语义语音标记与韵律特征...

2025-06-20 talkingdev

在大型语言模型（LLM）时代，推荐与搜索系统正经历从传统物品ID到丰富'语义ID'（Semantic IDs）的重大转型。这一变革引入了生成式检索和多模态嵌入技术，显著提升了系统处理冷启动覆盖、长尾内容发现的能力，并实现...