分词器的相关内容 - 漫话开发者

2026-04-29 talkingdev

Claude Opus 4.7新分词器上线：输入成本最高上涨27%，短提示词反降价

Anthropic近日通过引入全新分词器（Tokenizer），对其最新旗舰模型Claude Opus 4.7进行了核心升级。此次优化显著提升了模型对输入文本的理解精度，但同时也带来了一个直接影响用户的改变：成本结构调整。虽然模型的...

2026-02-16 talkingdev

在GPT-5.x等大型语言模型处理文本之前，所有输入都必须经过一个关键的前置组件——分词器。分词器本质上是一个压缩层，负责将原始文本转换为一系列整数ID序列。近日，一篇深度技术分析文章通过逆向工程OpenAI开源的分...

2025-10-14 talkingdev

最新研究表明，新一代大语言模型在字符级文本处理任务上取得显著突破。相比早期版本，GPT-5和Claude Sonnet 4.5等模型在字符计数、字符替换、密码解码等需要精细化文本操作的任务中表现出色。这一进步表明模型正在从...

2025-08-25 talkingdev

最新研究表明，大语言模型存在系统性偏好短词元的倾向，这一发现对自然语言处理领域具有重要影响。由于短词元拥有更多可能的后续组合方式，模型可能会优先选择这些‘松散词元’，即使它们并非最佳语义选择。该研究进一...

2025-06-10 talkingdev

Chonkie是一款革命性的开源文本分块库，以其超轻量级架构和闪电般的处理速度重新定义了文本预处理效率。作为GitHub上的明星项目，它具备多语言处理能力、云端就绪特性以及丰富的功能集，支持主流分词器、嵌入模型和A...

2025-04-15 talkingdev

近期，SilentView团队在GitHub开源了名为GigaTok的超大规模图像分词器项目，其参数量高达30亿（3B），在图像重建任务中展现出卓越性能。传统图像分词器在规模化过程中常面临性能崩溃问题，而GigaTok通过创新的解码器...

2024-07-19 talkingdev

Mistral公司与Nvidia携手研发的全新多语言模型Nemo 12B已经正式发布。这款模型采用了全新的分词器进行训练，展现出了强大的多语言和英语处理能力。值得一提的是，Nemo 12B还支持128k的上下文。这种强大的性能，无疑...

2024-04-16 talkingdev

Eleuther团队近期对T5模型进行了重新训练，采用了现代的分词器并延长了训练时间。T5作为现代AI领域的一匹黑马，此次升级后的Pile-T5模型在编码任务上表现出了显著的性能提升。经过持续的优化和调整，Pile-T5在多项基...