架构的相关内容 - 漫话开发者

2024-05-20 talkingdev

xAI公开发布具有3140亿参数的Grok-1模型

xAI近期公开发布了Grok-1模型的权重和架构。Grok-1是一种混合专家模型，拥有3140亿参数。发布的模型是Grok-1预训练阶段的原始基础模型检查点，这意味着它并未针对任何特定应用进行精调。该模型是由xAI使用自定义训练...

2024-05-13 talkingdev

Superfile是一款现代化的终端文件管理器，其主要特点包括漂亮的用户界面、快速的性能、可扩展的插件架构和内置的支持各种文件格式的预览功能。Superfile还支持多种操作系统，包括Linux、macOS和Windows。Superfile团...

2024-05-10 talkingdev

YOCO架构是一种具有全局注意力能力的解码器-解码器模型，能有效地降低GPU内存需求。它包含一个自解码器和一个交叉解码器，使得关键-值对的缓存和复用更加高效。与传统的Transformer相比，YOCO在推理内存、延迟和吞吐...

2024-05-09 talkingdev

苹果公司宣布了下一代Apple Silicon芯片——M4，这也是该公司首款专为人工智能设计的芯片。新芯片采用3纳米架构，并将首次在2024年的iPad Pro中亮相。新芯片拥有10核CPU，速度比M2快50%，并配备了新的神经引擎，能够每...

2024-05-08 talkingdev

传统上，搜索和推荐一直被分开，因为虽然它们在概念上占据了同一光谱的两端，但它们具有不同的工具、架构和机器学习目标。大型语言模型引入了需要小心管理的期望，因为在开放式解决方案空间中引导客户意图是很困难的...

2024-05-03 talkingdev

如果你有一台旧的 Raspberry Pi，不妨试试 RISC OS。RISC OS 是一款适用于 ARM 架构计算机的操作系统，它拥有简单易用的图形化界面和快速的响应速度。相比其他的 Raspberry Pi 操作系统，RISC OS 更加轻量级，占用更...

2024-05-02 talkingdev

如今，多层感知器在人工智能领域得到了广泛的应用，包括在Transformer的关注层之间。然而，它们使用的是固定的激活函数。最新研究论文建议在边缘使用学习的激活函数，利用科尔莫戈洛夫-阿诺德表示法（函数可以由更简...

2024-05-02 talkingdev

理解Transformer的工作原理常常需要多次尝试。本篇博客文章通过详细解读Gemma架构，帮助读者深入理解Transformer。文章内容明了，包含了代码和图解，无论是对于初学者还是专业人士来说，都能从中获取到有价值的信息...