工程的相关内容 - 漫话开发者

2025-06-19 talkingdev

Moonshot AI开源模型Kimi-Dev-72B在SWE-bench测试中创下60.4%新纪录

近日，Moonshot AI推出的Kimi-Dev-72B开源模型在SWE-bench Verified测试中取得了60.4%的优异成绩，成为当前开源模型中的新标杆。这一突破性成果得益于其采用的大规模强化学习技术，该技术通过在Docker环境中直接修补...

2025-06-18 talkingdev

Kapa.ai最新发布的文档《Writing documentation for AI: best practices》详细探讨了为AI系统撰写高效文档的核心原则，尤其针对检索增强生成（RAG）技术栈的优化需求。文章指出，RAG系统的性能高度依赖知识库文档的...

2025-06-17 talkingdev

GitHub最新开源项目CoRT（Code Interpreter Reasoning）提出了一种创新的方法，通过提示工程（hint engineering）对大语言模型进行后训练（post-train），使其能够将复杂计算任务智能分配给外部代码解释器执行。这一...

2025-06-17 talkingdev

OpenAI宣布将Prompts（提示词）正式升级为API原语，这一重大更新将允许开发者在Playground、API、Evals和Stored Completions等平台间实现提示词的集中管理、版本控制和优化。开发者现在可以预先配置提示词的工具、模...

2025-06-16 talkingdev

SWE-Factory项目近日发布了一套自动化训练与评估管道，专门用于GitHub问题解决任务。该系统的核心创新在于采用了基于大语言模型（LLM）的多智能体系统架构，通过模拟人类开发者的协作模式，实现了软件开发问题的智能...

2025-06-16 talkingdev

Anthropic在其工程博客中详细披露了多智能体系统的关键技术突破，包括提示设计、工具协调和生产可靠性挑战的解决方案。该系统采用协调器-工作者模式，由一个主导智能体生成多个专用子智能体进行并行搜索，性能远超基...

2025-06-16 talkingdev

QA Wolf推出的AI原生服务能在不到4个月内为网页和移动应用实现80%的自动化测试覆盖率。该服务基于开源框架Playwright构建并维护测试套件，同时提供在其基础设施上无限并行测试运行（含24小时维护）。以Salesloft为例...

2025-06-12 talkingdev

最新研究提出了一种针对电网级电池储能系统（BESS）的高频日内交易策略，旨在通过动态捕捉电力市场中的瞬时交易机会实现收益最大化。该论文创新性地将标准滚动内在策略（rolling intrinsic strategy）适配于连续日内...