模型部署的相关内容 - 漫话开发者

2026-07-31 talkingdev

开源WASTE推理引擎发布：仅需29GB内存即可本地运行2700亿参数Kimi K3模型

近日，开源推理引擎WASTE正式亮相，其核心亮点在于能够运行权重规模远超宿主设备物理内存的模型。该引擎作为让强大模型在更多硬件上可用的初步举措，旨在为个人和机构在基础设施成本、数据隐私、可用性及部署方式上...

2026-07-20 talkingdev

Netflix 近期公开了其内部自研的大语言模型（LLM）推理服务平台的设计与实践。与依赖外部托管 API 不同，该平台将模型部署和推理完全集成到 Netflix 现有的生产环境中，既保障了数据安全与低延迟，又实现了对模型的...

2026-06-27 talkingdev

OpenAI 正式对外预览了其下一代旗舰模型——GPT-5.6 Sol。这一模型不仅在编程、科学研究和网络安全等关键领域展现出显著增强的能力，更引人关注的是，它首次搭载了OpenAI迄今最先进的安全栈。从技术层面看，GPT-5.6 So...

2026-05-04 talkingdev

在大型语言模型（LLM）和视觉语言模型（VLM）部署中，模型量化是降低计算和存储成本的关键技术。然而，传统量化方法往往需要在模型大小和推理精度之间做出艰难取舍，尤其是在超低位宽（如2-bit、3-bit）下，精度损失...

2026-04-06 talkingdev

近日，GitHub上出现了一个名为Gemma Gem的开源项目，它是一个Chrome浏览器扩展，能够将谷歌最新发布的Gemma 4大型语言模型完全在用户本地设备上运行。该项目最大的技术亮点在于，它通过新兴的WebGPU API来实现高性能...

2026-04-02 talkingdev

富士通研究院近日开源了名为“OneCompression”（简称OneComp）的Python库，这是一个专门用于大语言模型后训练量化的工具。该库集成了当前最先进的量化算法，包括GPTQ和DBF，旨在帮助开发者和研究人员高效地将庞大的LL...

2026-02-28 talkingdev

据多方信源证实，人工智能领域的领军企业OpenAI已与美国国防部（五角大楼）达成一项重要协议，计划将其先进的人工智能模型部署至美国军方的涉密网络环境中。这一合作标志着生成式AI技术正加速进入国家级安全与国防应...

2026-02-27 talkingdev

人工智能安全领域的领先公司Anthropic近日就其与美国国防部的合作讨论发表公开声明。该公司CEO达里奥·阿莫代伊明确表示，Anthropic坚信AI技术在捍卫美国及其他民主国家安全、对抗专制对手方面具有重要价值，因此已主...