人工智能研究公司DeepSeek近日宣布对其R1推理模型进行重大升级,并将最新版本发布于Hugging Face平台。这一进展标志着自然语言处理领域的重要突破,R1模型以其卓越的推理能力和高效的参数利用在业界备受关注。此次更...
Read MoreDeepSeek团队在Hugging Face平台发布了最新的大语言模型DeepSeek-R1-0528,引发了技术社区的广泛关注。该模型在Hacker News上获得了330个点赞和148条评论,显示出业界对其技术价值的认可。作为开源大模型领域的重要...
Read MoreDeepSeek研究团队以DeepSeek-V3为案例,分享了大型语言模型(LLM)训练中的硬件-模型协同设计创新成果。该研究通过多头部潜在注意力机制(Multi-head Latent Attention)、专家混合系统(Mixture of Experts)、FP8...
Read MoreGitHub最新开源项目展示了一种针对Qwen2.5B大语言模型的创新微调方案,该方案采用SFT(监督微调)结合GRPO(梯度反向传播优化)的混合训练框架,其技术路线受到DeepSeek R1架构启发,并针对AWS云平台进行了专项优化...
Read MoreOpenAI宣布将于今夏发布一款可自由下载的开源AI系统,旨在性能上超越Meta、DeepSeek等竞争对手。该模型拟引入革命性的'任务转交'功能,当遭遇复杂查询时可无缝衔接云端部署的更大规模OpenAI模型进行联合计算。这一技...
Read MoreDeepSeek团队近日在GitHub开源了其第二代自动定理证明框架DeepSeek-Prover-V2,该项目迅速获得326个Hacker News点赞和63条技术讨论,显示出学术界和工业界对AI形式化验证工具的高度关注。作为当前最前沿的AI推理系统...
Read MoreDeepSeek公司近日宣布将于2025年正式推出新一代人工智能模型DeepSeek-R2,这一重大进展标志着大语言模型技术进入全新发展阶段。根据官方技术博客透露,R2模型将采用创新的混合架构设计,整合了稀疏专家模型(MoE)与密...
Read More惠普AI Studio推出创新技术方案,通过模型蒸馏技术将前沿大语言模型DeepSeek-R1的推理能力压缩至可在本地设备运行的轻量级版本。该技术突破实现了大模型从云端到本地的迁移,用户可通过Ollama框架进行本地推理部署,...
Read More