漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-04-15 talkingdev

谷歌云Next 25大会六大亮点:Vertex AI多模态模型升级与AI代理协议发布

谷歌云在Next 25大会上宣布Vertex AI迎来重大更新,其视频、图像、语音及音乐生成模型获得增强功能,显著提升企业创意工作流的智能化水平。谷歌AI推出面向企业的专用AI代理解决方案,通过优化任务自动化流程实现生产...

Read More
2025-04-04 talkingdev

[论文推荐]CLIP模型存在后门攻击漏洞:仅需少量数据即可实现近100%攻击成功率

最新研究发现,当前广泛应用的CLIP(Contrastive Language-Image Pretraining)多模态模型存在严重的安全隐患。根据arXiv最新论文披露,攻击者通过数据投毒(poisoning)方式植入后门,仅需污染0.5%的训练数据即可实...

Read More
2025-03-31 talkingdev

[开源]Mobile-VideoGPT:轻量级多模态视频模型,参数不足10亿却支持边缘设备实时推理

近日,GitHub上开源了一个名为Mobile-VideoGPT的轻量级多模态视频模型,其参数量不足10亿(1B),却通过创新的双视觉编码器和令牌剪枝技术,实现了在边缘设备上的实时推理能力。这一突破性进展为移动端和物联网设备...

Read More
2025-03-28 talkingdev

[论文推荐]Mixture-of-Mamba:多模态预训练新突破,计算成本显著降低

近期,一项名为Mixture-of-Mamba的创新研究在人工智能领域引起广泛关注。该研究通过将模态感知稀疏性引入状态空间模型(SSMs),实现了高效的多模态预训练。与传统Transformer模型相比,Mixture-of-Mamba在文本、图像...

Read More
2025-03-27 talkingdev

Qwen发布全新多模态模型Qwen Omni 7B,支持文本与语音响应

近日,Qwen发布了一款名为Qwen Omni 7B的多模态模型,该模型能够原生理解多种不同的模态数据,并以文本或语音的形式进行响应。这一技术的推出标志着人工智能在多模态处理领域迈出了重要一步。Qwen Omni 7B不仅能够处...

Read More
2025-03-25 talkingdev

[开源] Baichuan Omni 1.5:开源全模态基础模型支持多模态输入输出

Baichuan Omni 1.5 是一款支持文本、图像、视频和音频输入以及文本和音频输出的开源全模态基础模型。该模型采用任意到任意(any-to-any)的设计风格,属于原生多模态模型的一种典型代表。其核心技术在于使用了交错的...

Read More
2025-03-19 talkingdev

[开源] MaTVLM:融合Mamba-2层的混合视觉语言模型

MaTVLM是一个创新的混合视觉语言模型,通过将Mamba-2层集成到预训练的视觉语言模型(VLM)中,显著提升了其收敛速度与整体性能。这一技术突破不仅在学术界引起了广泛关注,也为工业界的应用带来了新的可能性。视觉语...

Read More
2025-03-17 talkingdev

Luma推出多模态模型预训练新方法:Inductive Moment Matching

Luma首席科学家宋嘉明,作为最早为扩散模型开发加速算法的先驱,近日发布了新的多模态预训练方法——Inductive Moment Matching(IMM)。这一新方法不仅超越了传统扩散模型在样本质量上的表现,还实现了10倍以上的效率...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page