DeepSeek的相关内容 - 漫话开发者

2025-08-18 talkingdev

中国开源大模型研发机构排名：DeepSeek领跑，Moonshot AI与智谱AI紧追其后

近日，一份针对中国19家人工智能实验室的排名报告引发行业关注。该排名并非基于模型原始性能，而是聚焦各机构对AI研究的贡献度。长期领跑的DeepSeek实验室虽近期相对低调，仍保持领先地位。值得注意的是，新兴力量如...

2025-08-15 talkingdev

Baseten近日推出其Model APIs服务，旨在为开发者提供高性能的开源大语言模型部署解决方案。该服务支持包括Kimi K2、GPT-OSS、DeepSeek、Qwen 3等在内的多款前沿开源模型，承诺提供行业领先的性能表现和极具竞争力的...

2025-07-16 talkingdev

英伟达（NVIDIA）CEO黄仁勋在近日的北京科技博览会上高度评价了中国企业DeepSeek、阿里巴巴和腾讯的人工智能模型，称它们已达到“世界级”水平。黄仁勋还透露，美国对英伟达H20芯片的出口许可审批“将很快完成”。这一表...

2025-07-07 talkingdev

德国知名技术咨询公司TNG Technology Consulting GmbH近日发布了其最新研发的DeepSeek-TNG R1T2 Chimera模型。这一突破性进展在人工智能领域引起广泛关注，该模型不仅显著提升了处理速度达200%，同时大幅减少了输出t...

2025-07-04 talkingdev

一项创新的推理时间扩展方法通过结合o4-mini、Gemini-2.5-Pro和DeepSeek-R1三种AI模型，在ARC-AGI-2基准测试中实现了30%的性能提升，显著优于单个模型的表现。该技术采用动态选择机制，根据问题特性自动分配最适合的...

2025-06-24 talkingdev

一项突破性研究展示了小模型通过创新训练方法战胜巨型模型的可能。日本Sakana.AI团队开发的"教师模型"采用全新范式——这些模型不需要自行解决问题，而是被直接提供问题和正确答案，专注于生成清晰易懂的解决方案解释...

2025-06-18 talkingdev

人工智能公司MiniMax在GitHub开源了其4560亿参数规模的推理模型M1，该模型采用创新的混合专家架构（MoE）并引入'闪电注意力'技术，实现百万token级别的超长上下文处理能力（相当于DeepSeek R1的8倍）。特别值得注意...

2025-06-17 talkingdev

Together AI宣布在其Serverless Inference API和专用端点服务中集成两大前沿AI模型：DeepSeek R1-0528语言模型与FLUX.1 Kontext图像生成系统。DeepSeek R1-0528通过升级的推理能力、函数调用支持及代码生成优化，显...