模型扩展的相关内容 - 漫话开发者

2026-06-23 talkingdev

AI模型规模狂飙：到2031年参数量将达1.4千万亿？核心约束竟是内存速度

一篇来自LessWrong社区的技术文章深入探讨了2023年至2031年间大型语言模型（LLM）规模扩展的物理极限。文章指出，虽然预训练算力是决定模型规模的关键，但一个常被忽视的硬性约束在于推理时的令牌生成速度。具体来说...

2026-05-06 talkingdev

近日，一篇来自JAX-ML团队的《Scaling Book》引起了AI领域的广泛关注。该书深入探讨了语言模型扩展背后的科学原理，为从业者提供了一份从硬件到实践的全景式指南。内容不仅详细解析了TPU与GPU的工作原理及其相互通信...

2025-12-18 talkingdev

OpenAI官方宣布，开发者现已可以向ChatGPT提交应用程序以供审核和发布。这一举措标志着ChatGPT平台正式向第三方开发者开放其应用生态，用户将能够在即将上线的应用目录中发现和体验各类由开发者构建的AI应用。此举不...

2025-12-02 talkingdev

近日，GitHub上开源了一个名为ViBT（Vision Bridge Transformer）的项目，该项目将布朗桥模型（Brownian Bridge Models）扩展至高达200亿参数规模，专门用于高效的图像与视频条件生成任务。ViBT的核心创新在于其采用...

2025-11-25 talkingdev

过去三年间，大语言模型（LLM）的扩展技术经历了显著的技术路线调整。早期以ChatGPT Plugins和模型上下文协议（MCP）为代表的复杂扩展方案，由于模型本身的能力限制和实现复杂度，逐渐被更简洁高效的解决方案取代。...

2025-07-15 talkingdev

一项名为'基于能量的Transformer'（Energy-Based Transformers）的新型架构在机器学习领域取得突破性进展。该技术摒弃了传统的直接预测方式，转而采用学习验证函数来评估输入与候选输出之间的兼容性得分。这种创新架...

2024-03-26 talkingdev

Anyscale与NVIDIA最近宣布了一项新的合作伙伴关系，旨在帮助客户将生成式AI模型扩展到生产环境中。通过这次合作，客户可以将Ray与Anyscale的托管运行环境相结合，以提高资源管理、可观测性和自动扩缩容的能力。这项...

2024-03-26 talkingdev

PSALM是大型多模态模型（LMM）的扩展版本，通过引入一个掩码解码器和多功能输入模式，在各种图像分割任务中表现出色。这种方法不仅克服了仅限于文本输出的限制，而且还使模型能够有效理解和分类复杂图像。PSALM的创...