决策支持的相关内容 - 漫话开发者

2025-04-23 talkingdev

[开源]个性化多智能体系统FlowReasoner：基于强化学习的元推理框架

新加坡国立大学SAIL实验室推出的FlowReasoner项目，开创性地将强化学习与外部反馈机制相结合，构建了一个可自主生成定制化多智能体系统的元推理框架。该技术突破性地实现了三大创新：1) 通过动态推理引擎解析用户查...

2025-04-18 talkingdev

斯坦福大学研究团队最新推出的JudgeLRM模型家族，通过强化学习训练机制在复杂推理评判任务中展现出突破性性能。该技术采用与标准监督微调（SFT）截然不同的训练范式，在需要深度逻辑分析的评估场景下，其综合表现显...

2025-04-03 talkingdev

加州大学圣克鲁兹分校视觉、语言与行为实验室（VLAA）在GitHub开源了MedReason项目，这是一个专为提升大语言模型（LLM）医疗推理能力构建的大规模数据集。该数据集通过结构化临床案例、医学知识图谱和多模态数据，旨...

2025-03-05 talkingdev

近日，L-MAP技术在离线强化学习（Offline RL）领域取得了显著进展，特别是在处理随机、高维连续动作空间中的序列决策问题。L-MAP通过结合VQ-VAE模型，成功学习并优化了宏动作（macro-actions），从而显著提升了决策...

2025-02-28 talkingdev

近日，GitHub上发布了一个名为CoT-UQ的创新框架，该框架旨在为大型语言模型（LLM）提供响应层面的不确定性量化。CoT-UQ通过集成链式思维（Chain-of-Thought, CoT）推理，能够更精确地评估模型在生成响应时的置信度。...

2025-02-10 talkingdev

近日，QLASS推出了一种创新的Q引导逐步搜索方法，旨在提升语言agent的决策能力。该方法通过提供中间奖励，显著提高了推理效率，并减少了对标注数据的依赖。这一技术突破不仅优化了语言agent的搜索过程，还为复杂任务...

2025-01-23 talkingdev

近日，GitHub上发布了一个名为MedSSS的医疗推理项目，该项目是一个基于自进化管道的慢思考小型医疗语言模型。MedSSS的设计旨在通过模拟人类医生的慢思考过程，提供更精准的医疗推理能力。该模型通过自进化管道不断优...

2024-12-04 talkingdev

近日，Genie 2项目公开了其最新进展，旨在打造一个大规模的基础世界模型。Genie 2通过整合大规模语言模型（LLM）与先进的知识嵌入技术，创建了一个能够理解和预测世界运作的复杂系统。这个模型不仅能够处理自然语言...