Meta公司内部团队与vLLM、PyTorch展开深度技术合作,成功推出预填充/解码分离技术(prefill/decode disaggregation),这项突破性技术显著提升了大规模语言模型在生产环境中的推理性能。通过将推理过程分解为预填充...
Read MoreCloudflare近日公开了其内部AI模型部署平台Omni的技术细节,该平台通过轻量级隔离和内存超分配技术,实现在单个GPU上并行运行多个AI模型,显著提升边缘节点的计算资源利用率。Omni平台专为边缘计算环境设计,能够动...
Read MoreSim作为一款新兴的开源平台,专注于AI智能体工作流的构建与部署,其核心突破在于深度整合Ollama框架,支持完全离线的本地AI模型运行。这一特性不仅显著降低了企业使用AI技术的云端依赖和数据传输风险,更通过开源模...
Read More近日,Artificial Analysis发布了一项针对OpenAI开源大语言模型gpt-oss-120b的性能基准测试报告。该测试聚焦于同一模型在不同托管服务提供商环境中的表现差异,结果显示各平台间的性能存在明显波动。作为当前参数规...
Read MoreBaseten近日推出其Model APIs服务,旨在为开发者提供高性能的开源大语言模型部署解决方案。该服务支持包括Kimi K2、GPT-OSS、DeepSeek、Qwen 3等在内的多款前沿开源模型,承诺提供行业领先的性能表现和极具竞争力的...
Read More近日,一篇题为《Building my offline AI workspace》的技术博客引发开发者社区广泛关注。作者详细记录了构建完全离线AI工作环境的技术实践,涉及本地化模型部署、数据隐私保护及离线开发工具链搭建等前沿议题。该方...
Read More亚马逊正通过实用型生成式AI创新深刻改变人类工作与生活方式。作为拥有25年AI/ML模型部署经验的技术先驱,亚马逊已构建超1,000个生成式AI应用矩阵,覆盖从AWS云服务、Alexa智能语音到物流机器人等全业务场景。其AI人...
Read MoreBlock公司近日在GitHub开源了Goose AI代理项目,这是一个突破性的开源AI开发工具。与传统代码建议工具不同,Goose作为可扩展的AI代理,支持包括本地模型在内的任意大型语言模型(LLM)作为后端,提供桌面和命令行(C...
Read More