低延迟的相关内容 - 漫话开发者

2026-07-27 talkingdev

celeris-1 发布：超低延迟逼近 GPT-5 级智能，推理速度提升 15 倍

人工智能公司 celeris AI 正式推出全新通用语言模型 celeris-1，该模型在保持前沿智能水平的同时，实现了突破性的响应速度。celeris-1 的核心创新在于采用了一种基于扩散技术的新型推理架构，从根本上重构了传统自回...

2026-07-27 talkingdev

英伟达实验室（NVIDIA Research）正式推出SANA-Video 2.0，一套面向长视频和高分辨率生成的最新模型方案。该方法在架构上融合了线性注意力（linear attention）与周期性softmax层，一改传统自注意力机制在长序列下的...

2026-07-27 talkingdev

Baseten 为 GLM-5.2 模型构建的全新 API 在推理速度上取得了突破性进展，峰值速度高达 280 tokens/秒，平均速度约为 100 tokens/秒，整体性能达到发布日初版 API 的两倍以上。这一大幅提升得益于底层的系统级优化与...

2026-07-24 talkingdev

微软正式推出两款全新自研AI模型——MAI-Image-2.5-Pro和MAI-Voice-2-Flash，进一步强化其在多模态生成领域的布局。MAI-Image-2.5-Pro专注于高保真图像生成与编辑，能够根据复杂文本描述生成细节丰富、构图精准的高质...

2026-07-24 talkingdev

人工智能领军人物吴恩达（Andrew Ng）在GitHub上开源了一个名为OpenWorker的新项目。该项目旨在构建一个运行在本地桌面端的AI同事，它能够理解用户指令，自主跨越不同的文件、文件夹乃至桌面应用程序来执行复杂工作...

2026-07-21 talkingdev

英伟达在Hugging Face上正式推出Cosmos 3 Edge，这是一款拥有40亿参数的开源世界模型，专为边缘设备上的机器人与视觉AI体设计。该模型通过共享的世界表征，将环境理解、实时预测、模拟与动作生成统一在同一框架下，...

2026-07-20 talkingdev

Netflix 近期公开了其内部自研的大语言模型（LLM）推理服务平台的设计与实践。与依赖外部托管 API 不同，该平台将模型部署和推理完全集成到 Netflix 现有的生产环境中，既保障了数据安全与低延迟，又实现了对模型的...

2026-07-17 talkingdev

OpenAI 最新推出的 GPT-5.6 在 Codex 开发环境中首次引入了一套精细化的多模型任务分配机制，将工作负载自动分流至 Sol、Terra 和 Luna 三个特性鲜明的执行单元。其中，Sol 专门应对目标模糊但价值极高的复杂问题，...