评估方法的相关内容 - 漫话开发者

2026-03-13 talkingdev

Cursor揭秘AI代码助手模型评估体系：线上线下混合评测确保开发体验

AI代码助手Cursor近日公开了其核心的模型质量评估方法论，采用线上线下混合评估流程，旨在确保其对模型性能的理解与开发者的实际工作体验紧密对齐。该体系的核心在于其内部评估套件CursorBench，它基于Cursor工程团...

2025-12-12 talkingdev

近日，一篇题为《Prompts for Open Problems》的文章在机器学习研究社区引发了广泛讨论。文章作者系统性地提出了四个具有高度前瞻性和可行性的研究方向，旨在推动领域突破现有范式。首先，“基于设计的机器学习”倡导...

2025-12-05 talkingdev

近日，AI模型聚合平台OpenRouter发布了一份名为《State of AI》的深度实证研究报告。该研究基于对超过100万亿（100T）真实世界大语言模型交互令牌的分析，覆盖了不同任务类型、地理区域和时间跨度，为当前AI技术的实...

2025-10-31 talkingdev

知名AI社区Hugging Face近日发布了一份名为《Smol训练手册》的深度技术指南，首次系统披露了从零开始训练大语言模型的全流程实战经验。该手册覆盖了模型训练生命周期的关键阶段：从小规模消融实验和基础设施调试，到...

2025-09-15 talkingdev

这篇技术长文系统性地剖析了大语言模型（LLM）的后训练完整生命周期，涵盖了监督微调（SFT）、奖励建模（Reward Modeling）以及强化学习方法（如RLHF）三大核心阶段。作者不仅详细阐述了如何通过人类反馈的强化学习...

2025-08-04 talkingdev

最新研究指出，实时编程面试（Live coding）作为一种常见的招聘方式，实际上可能对候选人造成不公。微软的一项研究表明，在被观察的情况下进行编程会显著降低候选人的表现，主要原因是压力导致的工作记忆（working m...

2025-06-24 talkingdev

本文深入探讨了长上下文问答系统的评估方法，包括指标设计、数据集构建以及人工或大语言模型(LLM)评估技术。文章重点分析了该领域面临的四大核心挑战：信息过载问题、证据分散现象、多跳推理需求以及幻觉生成风险。...

2025-03-28 talkingdev

近日，一项利用注意力图量化视觉模型内部偏差的新指标在GitHub上开源。该技术通过分析模型在识别过程中的注意力分布，能够有效识别出导致偏差的混淆特征，突破了传统基于群体准确率差异的评估局限。这项名为Attentio...