Qwen的相关内容 - 漫话开发者

2025-07-04 talkingdev

强化学习优化代码合并：Osmosis-Apply-1.7B以低成本超越大型基础模型

Osmosis-Apply-1.7B是基于Qwen3-1.7B模型通过强化学习微调而成的专用模型，在代码合并任务中表现出色，其奖励分数高达0.9893，甚至超越了OpenAI o3等更大规模的基础模型，同时显著降低了成本。该模型在CommitPackFT...

2025-06-28 talkingdev

多模态大模型的演进不断突破我们对技术能力的认知边界。从最初的QwenVL到最新的Qwen2.5 VL，研究团队在提升模型理解图像内容的能力方面取得了显著进展。如今，团队正式推出全新模型Qwen VLo，这是一个统一的多模态理...

2025-06-17 talkingdev

Groq的低延迟硬件技术现已正式成为Hugging Face Hub及SDK的可选推理服务提供商，这一合作标志着AI基础设施领域的重大突破。通过集成Groq的专用处理器架构，开发者能够以服务器无感知（serverless）方式极速调用Llama...

2025-06-16 talkingdev

人工智能领域迎来重要进展，Featherless AI近日正式成为Hugging Face平台的推理服务提供商。这一合作将为开发者带来革命性的无服务器（serverless）模型访问体验，用户无需管理底层基础设施即可直接调用包括Meta、Qw...

2025-06-09 talkingdev

阿里巴巴近日开源了Qwen3 Embedding系列模型，其8B参数版本在权威的MTEB多语言排行榜上位列第一。这一系列模型为开发者提供了构建RAG系统、语义搜索引擎和文档检索应用的强大工具，支持超过100种语言的处理需求。模...

2025-05-20 talkingdev

GitHub最新开源项目展示了一种针对Qwen2.5B大语言模型的创新微调方案，该方案采用SFT（监督微调）结合GRPO（梯度反向传播优化）的混合训练框架，其技术路线受到DeepSeek R1架构启发，并针对AWS云平台进行了专项优化...

2025-05-19 talkingdev

人工智能领域迎来重大技术突破，开源项目ParScale通过创新性地在大型语言模型（LLM）的训练和推理阶段同时应用并行计算技术，成功建立了第三种LLM扩展范式。这一技术突破解决了传统序列计算模式在超大规模模型应用中...

2025-05-05 talkingdev

阿里巴巴近日正式推出Qwen 3系列人工智能模型，该系列模型采用混合专家架构（Mixture of Experts），具备先进的推理能力，并宣称其性能可媲美谷歌和OpenAI的顶级模型。Qwen 3系列模型支持119种语言，训练数据规模高...