多模态融合的相关内容 - 漫话开发者

2026-07-29 talkingdev

Kimi K3架构全面公开：LatentMoE、Kimi Delta Attention与原生多模态驱动推理效率跃迁

近日，Kimi K3模型的开放权重发布揭示了其架构的诸多细节。该模型本质上是去年发布的Kimi Linear架构的规模化生产版本，整体设计明显向着更高的推理效率演进。K3现已原生支持多模态输入，进一步拓宽了应用边界。本次...

2026-07-16 talkingdev

人工智能公司Thinking Machines正式发布了其首个开放权重模型Inkling。这是一个参数规模高达9750亿的混合专家（Mixture-of-Experts）Transformer模型，原生支持文本、图像和音频的多模态输入与理解。Inkling最引人注...

2026-02-25 talkingdev

近日，通义千问团队在Hugging Face平台正式发布了Qwen3.5-35B-A3B模型。该模型集成了当前人工智能领域的多项前沿技术突破，旨在通过开源方式推动AI技术的民主化与普及。其核心亮点在于原生支持高达262,144个令牌的上...

2026-01-31 talkingdev

近日，国内人工智能公司月之暗面（Moonshot AI）在GitHub上正式发布了其号称“最强大模型”的Kimi K2.5的技术报告。这份技术报告的公开，迅速吸引了全球开发者与AI研究者的高度关注，在知名技术社区Hacker News上获得...

2025-12-20 talkingdev

知名AI研究员Andrej Karpathy近期发布了其对2025年大语言模型（LLM）领域范式变革的年度回顾文章，引发了技术社区的广泛关注与讨论。该文章深度剖析了过去一年中LLM领域在架构、训练范式、应用部署及多模态融合等方...

2025-11-23 talkingdev

谷歌最新发布的Gemini 3大模型在多项基准测试中表现突出，全面超越了OpenAI及其他竞争对手的模型，标志着谷歌在激烈的人工智能竞赛中实现重要突破。该模型在自然语言理解、代码生成和逻辑推理等核心能力上展现出显著...

2025-09-23 talkingdev

阿里巴巴正式推出通义千问Qwen3-Omni系列开源人工智能模型，该模型实现了对文本、音频、图像和视频四类模态数据的统一处理能力，并能同步生成文本与语音输出。作为中国科技企业对抗美国科技巨头的重要技术突破，Qwen...

2025-06-13 talkingdev

字节跳动旗下TikTok母公司最新发布的Seedance 1.0模型在文本生成视频（text-to-video）和图像生成视频（image-to-video）两项核心任务中均位列榜首，其性能表现超越谷歌Veo 3与OpenAI Sora等业界标杆。该模型仅需41...