小米近日在AI编程助手领域取得了突破性进展,正式开源了其终端原生AI编码工具——MiMo Code V0.1.0。这款工具在关键AI编码基准测试中表现抢眼,特别是在涉及超长周期、多步骤的复杂任务(超过200步)上,性能超越了知...
Read More在当前AI编程模型的评估中,大多数基准测试都聚焦于代码能否正确运行,即是否能够通过编译、执行并输出预期结果。然而,在真正的软件开发生产环境中,“正确”仅仅是最低标准。最新发布的FrontierCode基准测试,首次将...
Read More随着本地大语言模型(LLM)的普及,Ollama作为一款简洁的本地模型运行工具,受到开发者和研究者的广泛关注。然而,面对众多不同参数规模、训练策略的Ollama模型,如何快速、客观地选出最适合特定任务的模型,成为实...
Read MorePerplexity AI 在其最新研究论文中提出了一种名为“搜索即代码”(Search as Code,简称 SaC)的全新搜索架构范式。该方案通过提供一个软件开发工具包(SDK),赋予大语言模型对搜索流程的直接编程控制权。与传统将搜...
Read MoreMiniMax 最新发布的开源权重模型 M3 在编码和智能体(Agentic)任务上达到前沿水平。该模型不仅支持图像和视频输入,还可以直接操作桌面计算机。技术上,M3 引入了一种新的注意力架构,支持上下文缩放,并能够处理多...
Read More在人工智能领域,开源模型的性能与顶尖闭源模型之间的差距一直是业界关注的焦点。最近一篇来自LessWrong平台的深入分析指出,尽管开源模型在整体能力上仍不及GPT-4、Claude等最先进的闭源模型,但实际差距并没有想象...
Read More一位资深技术博主在运行其个人博客长达十年后,终于将系统从长期服务版本Ubuntu 16.04迁移到了FreeBSD。这次迁移并非简单的版本升级,而是一次深度的架构切换。博主详细记录了在Hetzner VPS上部署FreeBSD的完整流程...
Read More在Google I/O大会上,Google正式发布了其最新一代大语言模型系列——Gemini 3.5。这一版本是Gemini系列的重大升级,首款推出的模型为超快速的3.5 Flash版本,专为在Google搜索等应用中直接处理复杂任务而优化。在多项...
Read More