模型优化的相关内容 - 漫话开发者

2026-07-20 talkingdev

开源|ReactBench：专为编码代理设计的React实战评估框架

ReactBench 是一个开源的编码代理评估框架，专注于在接近真实的 React 开发任务中衡量代理的编程能力。与传统仅要求代码通过行为测试的基准不同，ReactBench 引入了更全面的评价维度，要求生成的解决方案在满足功能...

2026-06-22 talkingdev

Morph LLM近期发布了一系列针对开源代码生成模型的优化技术，旨在解决当前推理效率瓶颈。首先，团队通过训练一个专注于模型自身编码输出（而非通用互联网数据）的“起草模型”（drafter），在投机解码中取得了显著加速...

2026-05-04 talkingdev

在大型语言模型（LLM）和视觉语言模型（VLM）部署中，模型量化是降低计算和存储成本的关键技术。然而，传统量化方法往往需要在模型大小和推理精度之间做出艰难取舍，尤其是在超低位宽（如2-bit、3-bit）下，精度损失...

2026-04-02 talkingdev

人工智能公司Arcee AI近日正式发布了其前沿开源推理模型“Trinity-Large-Thining”。该模型专为处理复杂、长程任务的智能体（Agent）以及多轮工具调用场景而设计，被业界认为是目前中国境外发布的最强大的开源模型之一...

2026-03-22 talkingdev

近日，一个名为Tinybox的离线AI设备项目在技术社区引发了广泛关注。该项目旨在打造一款能够本地离线运行高达1200亿参数大型语言模型的紧凑型硬件设备。这一构想直击当前AI应用的核心痛点：数据隐私、网络依赖和高昂...

2026-03-13 talkingdev

AI代码助手Cursor近日公开了其核心的模型质量评估方法论，采用线上线下混合评估流程，旨在确保其对模型性能的理解与开发者的实际工作体验紧密对齐。该体系的核心在于其内部评估套件CursorBench，它基于Cursor工程团...

2026-03-09 talkingdev

知名AI研究员、前特斯拉AI总监Andrej Karpathy近日在GitHub上开源了AutoResearch项目，该项目旨在构建一个能够在单GPU小型LLM训练环境中运行的AI驱动自主研究循环系统。该系统允许AI智能体自动修改代码和指导文件，...

2026-01-23 talkingdev

谷歌研究团队近日发布了一项关于提升智能体意图理解能力的技术成果。核心观点指出，要让AI智能体真正发挥作用，其底层模型必须精准理解用户交互时的真实意图。当前，大型多模态大语言模型虽已在此任务上表现不俗，但...