微调的相关内容 - 漫话开发者

2026-03-23 talkingdev

Cursor承认其新编程模型基于月之暗面Kimi 2.5构建，引发开源模型商业化与地缘技术竞争讨论

近日，科技界发生了一起备受关注的模型溯源事件。AI编程助手Cursor发布的新一代代码生成模型Composer 2，被用户发现其底层架构疑似基于中国人工智能公司月之暗面（Moonshot AI）的开源大模型Kimi 2.5。面对社区质疑...

2026-03-18 talkingdev

法国人工智能公司Mistral AI正式推出了名为“Forge”的全新平台，旨在为企业和政府机构提供构建定制化AI模型的解决方案。该平台的核心特点是允许客户完全基于自身的专有数据，从头开始训练前沿级别的AI模型，而非仅仅...

2026-03-09 talkingdev

知名AI研究员、前特斯拉AI总监Andrej Karpathy近日在GitHub上开源了AutoResearch项目，该项目旨在构建一个能够在单GPU小型LLM训练环境中运行的AI驱动自主研究循环系统。该系统允许AI智能体自动修改代码和指导文件，...

2026-03-07 talkingdev

近日，一个名为OBLITERATUS的开源项目在开发者社区及技术新闻平台Hacker News上引发了广泛关注与讨论。该项目由开发者elder-plinius在GitHub上发布，其核心目标是“粉碎束缚你的枷锁”，具体指向为移除或绕过开源、开...

2026-02-18 talkingdev

Cohere的研究部门Cohere Labs近日正式发布了Tiny Aya系列开源模型，这是目前在其参数量级上性能最强的多语言开源模型。该系列包括基础模型TinyAya-Base（35亿参数）以及经过指令微调的TinyAya-Global和多个区域变体...

2026-02-04 talkingdev

阿里巴巴近日推出了专为编程智能体（Coding Agent）优化的开源模型Qwen3-Coder-Next。该模型基于创新的混合专家（Mixture of Experts， MoE）架构构建，旨在显著提升智能体在代码生成与执行环境交互方面的能力。其核...

2026-02-03 talkingdev

一项最新研究显示，通过对开源大语言模型进行高效的微调，其性能可以超越顶尖的闭源模型。研究团队采用直接偏好优化方法，仅使用5400对偏好数据对GPT-OSS 120B模型进行训练，使其在RewardBench 2评估基准的人类偏好...

2026-01-28 talkingdev

艾伦人工智能研究所（AI2）近日正式推出了“开源编码智能体”计划，旨在解决当前封闭且昂贵的编码智能体系统存在的局限性。作为该计划的首个成果，AI2发布了SERA（软验证高效仓库智能体）系列模型及其配套的可访问训练...