大型语言模型(LLM)在生产环境中的行为监控已成为AI工程化的重要挑战。为应对这一难题,业界引入了AI评估栈(AI Evaluation Stack),将测试分为确定性断言(如语法和路由完整性)与基于模型的评估(如语义质量)。...
Read More近日,由23岁创始人领导的AI数据公司AfterQuery宣布完成3000万美元的A轮融资,投后估值达3亿美元。更引人注目的是,这家专注于为人工智能实验室提供高质量编程代码和金融领域训练数据的初创企业,已实现超过1亿美元...
Read More人工智能安全公司Modulate近期推出的深度伪造音频检测API,在权威开源平台Hugging Face的独立评测榜单中位列第一,综合准确率达到99%。该模型在14个不同数据集上均取得了最优的等错误率(EER)和准确率指标,相比榜...
Read More近日,一个托管在GitHub上的开源项目“DHS Contracts Explorer”引发了科技界与数据安全领域的广泛关注。该项目基于黑客入侵美国国土安全部(DHS)下属行业合作办公室(Office of Industry Partnership)所获取的数据...
Read MoreCohere的研究部门Cohere Labs近日正式发布了Tiny Aya系列开源模型,这是目前在其参数量级上性能最强的多语言开源模型。该系列包括基础模型TinyAya-Base(35亿参数)以及经过指令微调的TinyAya-Global和多个区域变体...
Read MoreMeta(原Facebook)旗下研究团队近日在GitHub开源了AIRS-Bench基准测试框架,旨在系统性地量化大型语言模型(LLM)代理在真实世界人工智能研究任务中的端到端能力。该基准包含20个精心设计的机器学习研究任务,每个...
Read More近日,Hugging Face发布深度博文,系统回顾了自“DeepSeek时刻”以来全球开源人工智能生态的发展轨迹。文章指出,以DeepSeek为代表的开源模型发布事件,标志着AI发展进入了一个由开放协作驱动的新阶段。该文深入剖析了...
Read More近日,NVIDIA研究团队提出了一种名为“金鹅”(Golden Goose)的创新方法,旨在解决大语言模型(LLM)强化学习领域的一个关键瓶颈。当前,基于可验证奖励的强化学习(RLVR)是解锁LLM复杂推理能力的重要基石,但其发展...
Read More