模型架构的相关内容 - 漫话开发者

2023-12-26 talkingdev

如何让大型语言模型运行更快

本文提供了一份长而广泛的调查，介绍了让大型语言模型运行更快的不同方法。列表不是完全穷尽的，但可以用作学习有趣主题的跳板。在可能的情况下，它包括相关论文和博客文章的链接。本文介绍了不同的方法来优化大型语...

2023-11-20 talkingdev

往往情况下，当你使用生成模型生成一张图片后，它不完全是你想要的。然而，使用同一模型对图像进行编辑是极具挑战性的。Meta有一个关键的想法，即将所有生成视为指令，从而使编辑功能出现。这与新的模型架构的简单性...

2023-11-01 talkingdev

近期，研究人员深入探究了多模态大型语言模型（MLLMs）中使用的视觉编码器，并发现CLIP和DINO模型中的某些特征特别适合于详细的视觉任务。他们随后引入了COMM，一种结合了两种模型优点的策略。COMM能够显著提高LLMs...

2023-10-31 talkingdev

微软研究小组在一篇论文中提到，GPT-3.5-turbo（ChatGPT背后的模型）是一个具有20B参数的模型，该小组研究扩散模型用于代码。据称原始模型的参数为175B，因此可能进行了重新训练或蒸馏。

2023-10-19 talkingdev

研究人员开发出BitNet，这是一种新的大型语言模型设计，使用更少的能量和内存。BitNet使用一种新的技术来平衡模型的准确性和计算效率，同时减少了对大量数据的依赖。这一新设计的目的是为了降低大型语言模型的计算成...

2023-08-04 talkingdev

SoftMoE 是一种新的模型架构，它改进了稀疏的混合专家（MoE）模型。通过使用软分配方法，每个专家处理输入令牌的子集，SoftMoE以更低的成本提供了更大的模型容量。在视觉识别任务中，SoftMoE的表现超过了标准的变压...

2023-05-31 talkingdev

## 新闻内容： - 近来，多种数据类型的多模态训练变得越来越受欢迎。 - 模型架构通常需要复杂且有点脆弱的解决方案。 - Gill是一个很酷的新项目，它将文本标记与图像标记交错使用，从而实现真正的多模态输入和输出...

2023-05-25 talkingdev

Meta AI提出了一种新的AI模型架构，名为Megabyte，可以在多个格式上生成超过100万个标记。Megabyte解决了当前模型中的可扩展性问题，并并行执行计算，提高了效率并优于Transformers。 ## 核心要点：以下是这篇新...