模型训练的相关内容 - 漫话开发者

2025-10-21 talkingdev

开源|DeepSeek-OCR：突破长上下文压缩瓶颈，日生成20万页训练数据

DeepSeek-AI团队最新开源的DeepSeek-OCR项目在长上下文压缩技术领域实现重要突破。该项目通过创新的光学二维映射技术，探索将长文本上下文进行高效压缩的可行性。系统由DeepEncoder核心引擎和DeepSeek3B-Moe-A570M解...

2025-10-03 talkingdev

Vision-Zero项目提出了一种突破性的视觉语言模型训练范式，通过生成式对抗游戏实现自监督学习。该框架的核心创新在于利用任意图像对构建竞争性视觉游戏，使模型在无需人工标注的情况下，通过策略性自我博弈持续优化...

2025-09-24 talkingdev

Metabase推出的开源AI数据生成器是一项创新工具，它通过人工智能技术帮助用户高效创建符合特定参数的模拟数据。该工具允许用户自定义输入条件（如数据类型、范围分布等），生成结构化样本后可直接导出为CSV、JSON等...

2025-09-18 talkingdev

人工智能基础设施初创公司Upscale AI近日宣布完成超过1亿美元的种子轮融资，本轮由Mayfield和Maverick Silicon联合领投。该公司专注于开发基于开放标准的网络工具套件，旨在解决AI计算中日益严峻的网络瓶颈问题。随...

2025-09-17 talkingdev

月之暗面(Moonshot AI)团队在其技术博客中详细披露了Kimi K2模型在强化学习训练领域的重大突破。该团队成功实现了对1万亿参数模型的RL参数更新仅需约20秒，这一突破性进展解决了强化学习端到端训练过程中的关键效率...

2025-09-17 talkingdev

中国互联网巨头腾讯和百度在2025年通过香港离岸人民币债券市场（点心债市场）合计发行33亿美元债券，创下中国科技企业有史以来最大规模的境外债券融资纪录。这一融资行为主要旨在为人工智能基础设施建设和技术研发获...

2025-09-10 talkingdev

CData Foundations 2025虚拟峰会将于9月17日（分析专场）和9月24日（AI专场）重磅登场，聚焦企业数据架构现代化与AI战略部署。本次峰会汇聚Google、AWS、Databricks和ServiceNow等科技巨头的技术专家，分享数据治理...

2025-09-10 talkingdev

随着人工智能技术的快速发展，行业领先的AI公司正将自主训练模型视为战略要务。技术门槛的急剧降低成为关键推动力——模型蒸馏、精细调优和后训练优化等技术手段正以月为单位加速成熟，使得企业自建模型从高成本投入转...