[论文推荐]提升大语言模型细粒度子词理解能力的新方法:StochasTok
talkingdev • 2025-06-20
8636 views
最新研究表明,通过StochasTok训练方法可显著提升大语言模型对子词结构的理解能力。该创新技术采用随机分解标记的策略,在训练过程中让模型以多种拆分形式接触词汇(如将'strawberry'随机拆分为'straw|berry'、'str|awberry'甚至完全拆分为单个字母),从而模拟人类对词汇内部结构的认知方式。实验证明,采用此方法的模型在字符计数和多位数运算等需要细粒度理解的测试中达到接近完美的准确率,同时保持标准基准测试的性能水平。这项突破性技术为提升LLMs的语言理解深度开辟了新路径,对自然语言处理领域的发展具有重要启示意义。
核心要点
- StochasTok通过随机分解标记训练,增强模型对词汇内部结构的理解
- 采用该方法的模型在字符计数和复杂数学运算中表现接近完美
- 在提升细粒度理解能力的同时不影响标准任务性能