OpenAI 近期在内部工程实践中推行了一种被称为“Harness Engineering”的软件开发理念,它并非字面意义上的不写代码,而是引导工程师将注意力从手写逻辑转向构建 AI Agent 能够自主运行的环境和“控具”(Harness)。核...
Read More在大型语言模型(LLM)和视觉语言模型(VLM)部署中,模型量化是降低计算和存储成本的关键技术。然而,传统量化方法往往需要在模型大小和推理精度之间做出艰难取舍,尤其是在超低位宽(如2-bit、3-bit)下,精度损失...
Read More在AI大模型应用领域,成本与性能的平衡一直是开发者关注的焦点。近日,一款名为DeepClaude的开源工具在开发者社区引发热议。该项目巧妙地将DeepSeek V4 Pro模型与Claude Code的代理循环(Agent Loop)进行结合,旨在...
Read More近日,一款名为Kimi K2.5的开源权重模型在编程挑战中击败了包括Claude、GPT-5.5和Gemini在内的多个顶级闭源模型。这一事件迅速在科技圈引发广泛关注,尤其在Hacker News上引发了激烈讨论。Kimi K2.5由中国团队开发,...
Read MoreOpenAI在一项最新研究中揭示了GPT-5.1模型一个有趣的行为现象:随着使用频率增加,模型在生成文本时越来越倾向于使用“哥布林”(goblin)风格的隐喻表达。研究表明,这一“哥布林怪癖”并非模型随机涌现的幻觉,而是直...
Read More在AI应用层竞争日趋白热化的背景下,AI编程工具领域的明星公司Cursor做出了一个令市场震惊的战略选择。被誉为AI时代最“务实”软件公司的Cursor,其创始团队在评估了独立通往千亿美元市值的艰难路径后,最终决定以600...
Read MorePyTorch官方博客近日发布了一项名为AutoSP的创新技术,该技术旨在自动化地将标准Transformer训练代码转换为序列并行代码,用于长上下文大语言模型(LLM)的训练。AutoSP已与微软的DeepSpeed框架深度集成,使得开发者...
Read More随着人工智能大模型规模的不断增长,模型评估(Eval)环节正在迅速演变为一个新的计算瓶颈,其成本在某些情况下甚至已经逼近甚至超过了模型训练的开销。根据最新的行业分析,一次全面的AI评估运行费用可能高达数万美...
Read More