漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-01-30 talkingdev

深度解析DeepSeek的R1-Zero与R1技术架构

近日,DeepSeek公司发布了其最新的R1-Zero和R1技术架构,引发了业界的广泛关注。R1-Zero作为一款轻量级模型,专注于低资源环境下的高效运行,特别适用于边缘计算和物联网设备。其采用了先进的LoRA技术,能够在保持高...

Read More
2025-01-29 talkingdev

本地部署DeepSeek-R1模型的完整硬件+软件配置解析

本文详细介绍了一种价值6000美元的硬件配置方案,用于在本地环境中运行完整的DeepSeek-R1模型。该配置方案需要两台CPU和768GB的RAM,跨越24个RAM通道。虽然方案中并未包含GPU,但可以额外添加GPU以提高模型生成速度...

Read More
2025-01-29 talkingdev

数学怪才梁文峰:从数据极客到全球颠覆者的转变

中国DeepSeek公司的领头人梁文峰,原本是一位对数学充满热情的极客,却意外地被投资界所吸引。他所管理的对冲基金High-Flyer,规模高达80亿美元,成为中国最大的量化基金之一。梁文峰被形容为亲力亲为的领导者,他有...

Read More
2025-01-28 talkingdev

Llama推理模型在GitHub Gist上的最新进展

近日,GitHub Gist上发布了一个关于Llama推理模型的最小化工作复现版本。该模型最初由OpenAI提出,并由DeepSeek发布。该模型通过数学问题的格式和正确性奖励进行训练,展示了在长时间训练后出现的“顿悟”时刻。这一进...

Read More
2025-01-28 talkingdev

DeepSeek发布Janus Pro:全新文本生成图像工具

近日,DeepSeek正式发布了其最新的文本生成图像工具Janus Pro。该工具基于先进的LLM技术,结合embedding和LoRA优化,能够将用户输入的文本描述快速转化为高质量的图像。Janus Pro不仅支持多种艺术风格,还通过RAG技...

Read More
2025-01-26 talkingdev

论文DeepSeek-R1-通过强化学习提升LLM的推理能力

近日,DeepSeek团队发布了其最新研究成果DeepSeek-R1,旨在通过强化学习(RL)技术提升大型语言模型(LLM)的推理能力。DeepSeek-R1的核心目标是通过激励机制优化模型的推理过程,使其在处理复杂问题时表现出更高的...

Read More
2025-01-22 talkingdev

DeepSeek在Transformer架构上的创新突破

DeepSeek作为少数几家在生成模型底层架构上持续创新的开放模型提供商之一,其研究成果并非依赖于简单的算力堆砌,而是基于对Transformer架构的深刻理解。DeepSeek的研究团队在Transformer的框架内进行了多项优化,使...

Read More
2025-01-21 talkingdev

DeepSeek-R1:新一代精准搜索引擎技术发布

DeepSeek-R1,作为业界领先的新一代精准搜索引擎技术,采用了最新的人工智能算法和机器学习框架,通过深度语义理解和自然语言处理技术,实现了对搜索查询的高精度解析和匹配。DeepSeek-R1的技术核心在于其独特的优化...

Read More
  1. Prev Page
  2. 7
  3. 8
  4. 9
  5. Next Page