模型参数的相关内容 - 漫话开发者

2023-09-15 talkingdev

MoEs模型在参数效率上的极限突破

混合专家模型（MoEs）是一种增加模型容量的有效方法，同时不会增加每个令牌的运行时间。然而，让它们快速运行并进行微调仍然具有一定的难度。最新研究发现，如果你能有效地修改密集模型参数，以配合MoEs的微调，就能...

2023-08-07 talkingdev

目前使用的语言模型有两大类：密集型和稀疏型。密集型模型就像传统的2017年的变压器模型，每个令牌都使用每个模型参数。稀疏型模型在此后不久就被引入，它使用一种路由机制（通常是学习到的），这意味着每个令牌只使...

2023-08-04 talkingdev

SoftMoE 是一种新的模型架构，它改进了稀疏的混合专家（MoE）模型。通过使用软分配方法，每个专家处理输入令牌的子集，SoftMoE以更低的成本提供了更大的模型容量。在视觉识别任务中，SoftMoE的表现超过了标准的变压...

2023-06-06 talkingdev

## 概述该指南分享了使用GPT时获得更好结果的策略和技巧。 ## 主要内容 - GPT简介 - 改进GPT结果的方法和技巧 - 最佳实践 ## GPT简介 - GPT是一种自然语言处理技术，可生成高质量的文本。 - GPT的工作原理是基于...