中山软件开发定制,网站优化建设深圳,网站建设多少钱一个月,哪里有微信网站开发公司今天读的是IntelliLight:一种用于智能交通灯控制的强化学习方法#xff0c;其核心创新点在于解决了传统方法在真实动态交通环境下的不足#xff0c;并通过模型结构优化和训练机制改进提升性能。
讲解一下我认为的创新点#xff1a;
传统方法的缺陷…
今天读的是IntelliLight:一种用于智能交通灯控制的强化学习方法其核心创新点在于解决了传统方法在真实动态交通环境下的不足并通过模型结构优化和训练机制改进提升性能。
讲解一下我认为的创新点
传统方法的缺陷固定时序控制Fixed-time和基于规则的方法如SOTL无法适应动态交通流已有强化学习方法大多在仿真环境中测试未考虑真实交通的复杂性和样本不平衡问题。
关键挑战 环境表征如何有效融合交通状态车流位置、等待时间等和信号灯相位Phase。决策偏差相同车流条件下不同相位需不同决策但传统DQN将相位作为普通特征导致决策混淆。样本不平衡真实交通中不同相位-动作组合出现频率差异大影响训练稳定性。
为了解决相位决策混淆问题他这里有的一个创新方法
(1) Phase Gate相位门控
主要就是面对不同的相位如东西向绿灯 P0 或南北向绿灯 P1激活不同的全连接层分支。
他的输入特征为融合图像特征CNN提取车流位置 传统特征排队长度 L、等待时间 W、车辆数 V、相位 P。
效果就是相同车流下不同相位能够触发独立决策逻辑避免错误动作如该保持相位时误切换。 还有就是面对真实交通中样本不平衡问题如某些相位-动作组合样本稀少毕竟强化学习只是在仿真里面训练面对真实环境还有差距。
他提出的创新方法为
2Memory Palace记忆宫殿
他为为每个相位-动作组合如 (P0, a保持)、(P1, a切换)建立独立记忆池。这样就能够保证训练时从各记忆池均匀采样确保低频组合不被忽略。
这样能提升模型对罕见交通场景的适应能力减少决策偏差。 面对仿真和真实环境的差距他使用真实数据来训练。
(3) 真实数据驱动的训练与评估
使用济南市 1,704个摄像头 的31天真实数据4.05亿条车辆记录覆盖动态交通流高峰/非高峰、工作日/周末。
并且他的奖励函数可以参考下
奖励 w1*总排队长度 w2*总等待时间 w3*信号切换惩罚 w4*总延误 w5*通过车辆数 w6*总通行时间 还有就是他的状态表示
使用图像特征和传统特征
图像特征车流位置矩阵 M → CNN提取空间信息。
传统特征各车道排队长度 L_i、车辆数 V_i、平均等待时间 W_i、当前相位 P_c、下一相位 P_n。
动作空间为二值决策a0 保持当前相位a1 切换相位
训练框架分为离线阶段用固定时序策略收集初始样本。和在线阶段ε-贪婪策略交互更新ε0.05定期从记忆宫殿采样更新DQN。
总结 我认为以后比赛最值得尝试的就是他的相位门控机制能够解决状态-动作混淆问题。
还有记忆宫殿分桶存储样本解决不平衡问题能够提升鲁棒性。