Osmosis-Apply-1.7B是基于Qwen3-1.7B模型通过强化学习微调而成的专用模型,在代码合并任务中表现出色,其奖励分数高达0.9893,甚至超越了OpenAI o3等更大规模的基础模型,同时显著降低了成本。该模型在CommitPackFT...
Read More一项创新的推理时间扩展方法通过结合o4-mini、Gemini-2.5-Pro和DeepSeek-R1三种AI模型,在ARC-AGI-2基准测试中实现了30%的性能提升,显著优于单个模型的表现。该技术采用动态选择机制,根据问题特性自动分配最适合的...
Read MoreAnyscale研究团队近期对TRL、Verl、OpenRLHF等九大开源强化学习框架进行了系统性评测,涵盖采用度指标、系统特性和技术架构三大维度。该研究为开发者选择适合RLHF(人类反馈强化学习)、推理模型或智能体训练场景的...
Read More过去几年,AI行业一直遵循着类似摩尔定律的发展轨迹,即智能计算成本每年呈数量级下降,且每一代新模型不仅性能更强,运行成本也更低。然而,谷歌上周发布的Gemini 2.5 Flash模型打破了这一趋势——其输入token价格翻...
Read MoreLangChain最新发布的技术指南《智能体上下文工程》深入剖析了Agent开发中的核心环节——上下文工程。该指南不仅系统阐述了上下文工程在智能体架构中的关键作用,还详细介绍了当前业界主流的实现模式及具体应用方案。作...
Read MoreDevin团队在其最新技术分享中提出'防御性提示(defensive prompting)'方法论,强调在AI代理开发过程中,不仅要明确任务目标,更需要通过结构化指令指导AI'如何完成任务'。研究表明,耗时1-6小时的中等复杂度任务能...
Read MoreOpenAI联合创始人Ilya Sutskever已正式出任Safe Superintelligence公司CEO,此前Meta挖走了该公司前CEO Daniel Gross。Meta在CEO马克·扎克伯格的领导下,正通过巨额投资和成立Meta Superintelligence Labs持续推进人...
Read More法国研究机构Kyutai Labs近日开源其文本转语音(TTS)系统Kyutai TTS,该技术凭借L40S GPU实现32请求并行处理时仅350毫秒的延迟表现,达到行业领先水平。系统创新性地提供单词级时间戳输出功能,英语和法语的字错误...
Read More