Transformer模型的相关内容 - 漫话开发者

2026-04-21 talkingdev

开源|Soul Player C64：在1MHz的Commodore 64上运行的真实Transformer模型

近日，GitHub上一个名为‘soulplayer-c64’的开源项目引发了技术社区的广泛关注。该项目成功地在仅有1MHz主频、内存极其有限的经典计算机Commodore 64上，部署并运行了一个拥有25,000个参数的真实Transformer神经网络...

2026-04-17 talkingdev

近日，开源社区推出一项旨在提升AI模型移植与代码审查效率的新工具——Skill and Test Harness。该工具专为将Transformer模型移植至苹果MLX框架（mlx-lm）而设计，通过自动化处理模型转换任务，显著降低了开发者的贡献...

2026-03-18 talkingdev

近日，GitHub上开源了一个名为MoDA的项目，它实现了一种创新的注意力机制——混合深度注意力。该机制的核心突破在于，允许注意力头同时访问当前层以及更早层的键值对。这一设计旨在解决随着模型深度增加，信息在传递过...

2026-02-23 talkingdev

近日，在GitHub上开源名为“ntransformer”的高效大语言模型推理引擎项目，其核心创新在于探索并实现了通过NVMe存储设备直接与GPU通信，绕过CPU和系统内存的传统数据路径，从而在消费级显卡RTX 3090上成功运行了参数量...

2026-01-01 talkingdev

近日，一个名为LMCache的开源项目在GitHub上发布，旨在通过创新的键值（KV）缓存加速层，显著提升大型语言模型（LLM）的服务性能。该项目专为LLM推理服务设计，其核心在于能够跨GPU、CPU、本地磁盘和Redis等多种存储...

2025-11-05 talkingdev

当前最强大的开源大语言模型普遍采用自回归解码器架构的Transformer模型，但近年来涌现出多种创新架构。这些模型不仅关注计算效率的提升，更致力于突破性能瓶颈。文本扩散模型通过模拟去噪过程生成连贯文本，在创造...

2025-10-08 talkingdev

开发者Sean Goedecke在最新实验中证实，OpenAI的GPT-5-Codex在人工智能研究领域展现出超越人类研究员的潜力。通过构建自动化研究流程，Codex能够自主设计实验方案并根据结果持续优化策略，特别是在文本生成领域取得...

2025-08-25 talkingdev

最新研究表明，大语言模型存在系统性偏好短词元的倾向，这一发现对自然语言处理领域具有重要影响。由于短词元拥有更多可能的后续组合方式，模型可能会优先选择这些‘松散词元’，即使它们并非最佳语义选择。该研究进一...