决断 Decisor · 强化学习+规则混合决策引擎

技术信息

作品详情

行业场景

在应急指挥、电网调度、智能交通、工业自动化、复杂物流等场景，决策系统普遍面临三
大矛盾：① 纯规则引擎可解释、安全，但应对复杂博弈环境时规则爆炸、组合空间无法
穷举；② 纯强化学习探索能力强、能找到非常规最优解，但黑盒难解释、关键场景下不
可信任、训练样本依赖大；③ 在线场景中既要毫秒级响应、又要持续学习进化避免知识
老化。本项目针对上述矛盾，构建"高层 RL 探索 + 底层规则护栏 + 在线增量学习"三位
一体的决策引擎，已在应急调度场景中跑通核心能力测试，决策正确率与响应延时双指标
均优于纯规则方案与纯 RL 方案。

功能介绍

1. 异步训推架构：训练节点与推理节点解耦，分布式动态经验池，吞吐对比同步架构提升
约 5x，训练采样无阻塞
2. 分层决策模型：高层策略网络做战役级规划，底层规则引擎(Drools)做指令落地，二
者通过统一状态空间协同
3. 规则触发优先：检测到强约束关键态势时直接走规则路径绕过 RL 推理，毫秒级响应
4. 增量在线优化：决策执行→数据回流→模型微调→权重热更新闭环，避免知识老化
5. 决策可视化：每次决策的规则匹配过程、RL 网络置信度、最终选择全程可追溯
6. 灾难性遗忘防护：基于置信度的样本过滤 + 模型版本灰度发布与一键回滚机制

项目实现

作为架构师 + 算法落地：
1. 异步训推架构：基于 Ray 实现采样-训练-推理三角解耦，自研高吞吐异步中转层
2. 状态-动作空间规范化建模：将多源异构实体特征统一表达为图结构 + 属性向量
3. 强化学习算法选型与改造：基于 PPO 改造支持稀疏奖励，引入领域专家评价转稠密
奖励信号，模型收敛速度提升约 3x
4. Drools 规则引擎集成：构建领域本体库 + 规则版本管理 + 在线热更新机制
5. 模型版本管控：基于 Redis 共享内存 + 版本号原子切换，支持灰度发布与一键回滚
6. 难点：RL 与规则的冲突消解，方案是规则置信度判定 + RL fallback 模式——安全场景
下规则一票否决，复杂博弈下 RL 主导，过渡场景下两者加权融合