训练方法的相关内容 - 漫话开发者

2025-08-04 talkingdev

Anthropic研究：人格向量技术实现语言模型性格特征的监测与控制

Anthropic研究人员通过对比神经网络在展现特定性格特征与未展现时的活动差异，成功提取出"人格向量"，揭示了语言模型性格变化遵循可预测的数学规律。这一突破性发现促成了一种反直觉的"疫苗接种"式训练方法——在训练...

2025-07-09 talkingdev

艾伦人工智能研究所（AI2）近日推出OLMo 2全开源语言模型家族，标志着大模型开源生态取得重大突破。该系列包含32B、13B、7B和1B四种参数规模，其中旗舰型号OLMo 2 32B成为首个在主流基准测试中同时超越GPT-3.5 Turbo...

2025-07-02 talkingdev

华为宣布将开源其PanguAI系列中的两个核心模型及部分推理技术，这一战略举措旨在推动全球人工智能技术的普及与应用。作为中国AI领域的领军企业，华为此次开源不仅展示了其在自然语言处理和多模态AI领域的技术积累，...

2025-06-24 talkingdev

一项突破性研究展示了小模型通过创新训练方法战胜巨型模型的可能。日本Sakana.AI团队开发的"教师模型"采用全新范式——这些模型不需要自行解决问题，而是被直接提供问题和正确答案，专注于生成清晰易懂的解决方案解释...

2025-06-20 talkingdev

最新研究表明，通过StochasTok训练方法可显著提升大语言模型对子词结构的理解能力。该创新技术采用随机分解标记的策略，在训练过程中让模型以多种拆分形式接触词汇（如将'strawberry'随机拆分为'straw|berry'、'str|...

2025-06-17 talkingdev

TreeRL是一种创新的语言模型训练方法，通过结合on-policy树搜索和中间监督机制，实现了无需单独奖励模型的LLM训练。这一技术突破来自最新arXiv论文，相比传统的ChainRL方法，TreeRL在数学推理和代码生成等复杂任务上...

2025-06-11 talkingdev

强化学习预训练（Reinforcement Pre-Training, RPT）作为大语言模型（LLM）与强化学习（RL）协同进化的前沿技术，提出了一种革命性的规模化训练范式。该技术通过创新性地利用海量文本数据进行通用强化学习预训练，在...

2025-06-03 talkingdev

开发者dleemiller近日在Hugging Face平台发布了Penny-1.7B语言模型，该模型通过创新性的训练方法实现了对19世纪《爱尔兰便士杂志》古英语风格的精准模仿。项目采用纯GRPO（一种新型优化算法）训练策略，仅用单张NVID...