工程的相关内容 - 漫话开发者

2025-06-16 talkingdev

SWE-Factory开源基于LLM多智能体的自动解决管道

SWE-Factory项目近日发布了一套自动化训练与评估管道，专门用于GitHub问题解决任务。该系统的核心创新在于采用了基于大语言模型（LLM）的多智能体系统架构，通过模拟人类开发者的协作模式，实现了软件开发问题的智能...

2025-06-16 talkingdev

Anthropic在其工程博客中详细披露了多智能体系统的关键技术突破，包括提示设计、工具协调和生产可靠性挑战的解决方案。该系统采用协调器-工作者模式，由一个主导智能体生成多个专用子智能体进行并行搜索，性能远超基...

2025-06-16 talkingdev

QA Wolf推出的AI原生服务能在不到4个月内为网页和移动应用实现80%的自动化测试覆盖率。该服务基于开源框架Playwright构建并维护测试套件，同时提供在其基础设施上无限并行测试运行（含24小时维护）。以Salesloft为例...

2025-06-13 talkingdev

最新研究提出了一种针对电网级电池储能系统（BESS）的高频日内交易策略，旨在通过动态捕捉电力市场中的瞬时交易机会实现收益最大化。该论文创新性地将标准滚动内在策略（rolling intrinsic strategy）适配于连续日内...

2025-06-11 talkingdev

JavelinGuard是一套专为检测大语言模型(LLM)交互中恶意意图而设计的低成本高性能模型架构。该研究提出了多种具有不同速度、可解释性和资源需求权衡的架构方案，并特别针对生产环境部署进行了优化。论文详细探讨了这...

2025-06-08 talkingdev

近日，一款名为canvas-atkinson-dither的开源工具在技术社区引发关注，该工具能够将普通照片转换为具有复古风格的Atkinson抖动效果图像。Atkinson抖动是一种经典的图像处理算法，由苹果公司前工程师Bill Atkinson开...

2025-06-06 talkingdev

谷歌工程师团队在GitHub上发布了一项名为'Local Network Access'的提案，旨在通过技术手段限制网站未经用户明确授权访问其本地网络资源的能力。该提案针对当前Web安全体系中存在的潜在风险，即恶意网站可能利用浏览...

2025-06-05 talkingdev

该GitHub仓库发布了一个包含239个科学推理问题的基准测试集，专门用于评估大语言模型(LLMs)在科学推理任务中的表现，特别是超越简单记忆的方程发现能力。这一基准测试的推出标志着AI领域对模型深层科学理解能力的量...