模型部署的相关内容 - 漫话开发者

2023-11-23 talkingdev

3分钟内部署任何GGUF模型

使用llama.cpp和GGUF服务器，您可以非常快速地部署一个服务于HuggingFace托管模型的端点。这意味着您可以在几分钟内将HuggingFace的最新自然语言处理模型部署到生产环境中。

2023-09-28 talkingdev

利用RL调整语言模型正逐渐成为模型部署流程中的标准步骤。现在，这将通过扩散模型以及DRLX的发布变得更加容易，DRLX允许用户指定奖励模型或使用预定义的模型。扩散模型通过简化了RL在语言模型调整中的实现，为AI技术...

2023-09-11 talkingdev

随着技术的成熟，WebAssembly的热度逐渐降低。现在，WebAssembly已经足够好，可以在很多生产场景中使用，包括基于浏览器的模型部署。Web AI是一个GitHub仓库，它允许在浏览器中运行现代深度学习模型，这标志着WebAss...

2023-08-24 talkingdev

在生产环境中部署扩散模型一直是一个挑战，因为这些模型难以处理，且计算成本高。但是现在，OneDiffusion的出现旨在使部署和微调变得更易于管理、可扩展且可靠。OneDiffusion是一个开源项目，它的目标是使扩散模型在...

2023-08-01 talkingdev

训练吞吐量、提示处理吞吐量和生成吞吐量都有不同的成本，并且受到不同计算资源的瓶颈制约。因此，某些工作负载在Llama 70B上实际上比支付GPT-3.5更昂贵。这篇博客写得非常优雅，围绕模型部署考虑问题有一些非常好的...

2023-06-07 talkingdev

GGML以纯C语言编写的框架，让用户可以在MacBook电脑上轻松运行大型语言模型，这种模型通常在本地运行成本较高。目前，这一框架主要被业余爱好者使用，但在企业模型部署方面也有广泛的应用前景。核心要点： - GGML...

2023-06-05 talkingdev

最近，一篇名为“Activation-aware Weight Quantization (AWQ)”的论文在GitHub上开源。这篇论文提出了一种新的方法，可以更高效地压缩大型语言模型（LLMs），克服了高硬件要求和慢速令牌生成的问题。AWQ可以选择性地...