大模型训练的相关内容 - 漫话开发者

2025-10-21 talkingdev

开源|DeepSeek-OCR：突破长上下文压缩瓶颈，日生成20万页训练数据

DeepSeek-AI团队最新开源的DeepSeek-OCR项目在长上下文压缩技术领域实现重要突破。该项目通过创新的光学二维映射技术，探索将长文本上下文进行高效压缩的可行性。系统由DeepEncoder核心引擎和DeepSeek3B-Moe-A570M解...

2025-09-18 talkingdev

人工智能基础设施初创公司Upscale AI近日宣布完成超过1亿美元的种子轮融资，本轮由Mayfield和Maverick Silicon联合领投。该公司专注于开发基于开放标准的网络工具套件，旨在解决AI计算中日益严峻的网络瓶颈问题。随...

2025-09-17 talkingdev

月之暗面(Moonshot AI)团队在其技术博客中详细披露了Kimi K2模型在强化学习训练领域的重大突破。该团队成功实现了对1万亿参数模型的RL参数更新仅需约20秒，这一突破性进展解决了强化学习端到端训练过程中的关键效率...

2025-09-17 talkingdev

中国互联网巨头腾讯和百度在2025年通过香港离岸人民币债券市场（点心债市场）合计发行33亿美元债券，创下中国科技企业有史以来最大规模的境外债券融资纪录。这一融资行为主要旨在为人工智能基础设施建设和技术研发获...

2025-08-20 talkingdev

这篇技术文章系统性地剖析了现代GPU的核心架构，重点阐述了流式多处理器(SM)的组织结构、CUDA核心与Tensor核心的协同工作机制，以及多层次内存体系的优化策略。文章不仅对比了历代GPU产品的规格演进，更从芯片层面深...

2025-07-03 talkingdev

Epoch AI最新研究显示，人工智能领域正经历前所未有的计算规模扩张。2024年全球已追踪到201个计算量超过10²³ FLOPs的AI大模型，较2017年仅有的2个实现指数级增长。尤其值得注意的是，以GPT-4为代表的顶尖模型已突破1...

2025-06-03 talkingdev

一项突破性研究通过对比模型在随机数据（无法泛化）和真实文本上的训练表现，开发出区分记忆与泛化的新方法。研究发现，模型会先记忆训练数据直至容量饱和，随后转向学习通用模式。以GPT类Transformer为例，每个参数...

2025-04-18 talkingdev

Hugging Face平台最新发布的SIFT-50M（Speech Instruction Fine-Tuning）数据集，是一个包含5000万样本的大规模语音指令微调数据集，专为语音-文本大语言模型（LLMs）的指令微调和预训练而设计。该数据集基于公开可...