基于状态聚类的多站点CSPS系统的协同控制方法被引量：1

Coordinate Control of Multiple CSPS System Based on State Aggregation Method

在线阅读下载PDF

导出

摘要单站点传送带给料加工站(Conveyor-serviced production station,CSPS)系统中,可运用强化学习对状态–行动空间进行有效探索,以搜索近似最优的前视距离控制策略.但是多站点CSPS系统的协同控制问题中,系统状态空间的大小会随着站点个数的增加和缓存库容量的增加而成指数形式(或几何级数)增长,从而导致维数灾,影响学习算法的收敛速度和优化效果.为此,本文在站点局域信息交互机制的基础上引入状态聚类的方法,以减小每个站点学习空间的大小和复杂性.首先,将多个站点看作相对独立的学习主体,且各自仅考虑邻近下游站点的缓存库的状态并纳入其性能值学习过程;其次,将原状态空间划分成多个不相交的子集,每个子集用一个抽象状态表示,然后,建立基于状态聚类的多站点反馈式Q学习算法.通过该方法,可在抽象状态空间上对各站点的前视距离策略进行优化学习,以寻求整个系统的生产率最大.仿真实验结果说明,与一般的多站点反馈式Q学习方法相比,基于状态聚类的多站点反馈式Q学习方法不仅具有收敛速度快的优点,而且还在一定程度上提高了系统生产率. In a single conveyor-serviced production station （CSPS） system, we can learn an approximate optimal look- ahead policy by reinforcement learning （RL） through exploring the state-action space. However, for the coordinate control problem in a multiple CSPS system, the state space will grow exponentially or geometrically as the number of stations and the capacity of buffer increase. As a result, the learning process will suffer from the curse of dimensionality, which may have a negative influence on convergence speed and optimized value. Therefore, by combining a local information interaction mechanism among stations, we introduce a state aggregation method to reduce the size and complexity of each station＇s leaning space. Firstly, each station is regarded as an independent learning agent that incorporates only the buffer state of its nearest downstream station into its own learning process. Secondly, the original state space is divided into several disjoint sets and each set is represented by an abstract state, and a multiple-agent state aggregation feedback Q-learning （SAFQL） algorithm is proposed afterwards. Through our proposed approach, the agent can learn an optimized look-ahead policy over the abstract state space to improve the entire system＇s processing rate. Finally, we demonstrate by a numerical example that, in comparison to general feedback Q-learning algorithm, SAFQL algorithm can not only fasten the convergence speed, but also improve the processing rate in some degree.

作者唐昊裴荣周雷谭琦

机构地区合肥工业大学电气与与自动化工程学院合肥工业大学计算机与信息学院

出处《自动化学报》 EI CSCD 北大核心 2014年第5期901-908,共8页 Acta Automatica Sinica

基金国家自然科学基金(61174186 71231004) 国家国际科技合作项目(2011FA10440) 教育部新世纪优秀人才计划项目(NCET-11-0626) 高等学校博士学科点专项科研基金(20130111110007)资助~~

关键词多站点CSPS系统局域信息交互状态聚类反馈式Q学习 Multiple conveyor-serviced production station （CSPS）, local information interaction, state aggregation, feedback Q-learning （SAFQL）

分类号 TP273 [自动化与计算机技术—检测技术与自动化装置]

作者简介唐昊合肥工业大学电气与自动化工程学院教授．2002年获得中国科学技术大学博士学位．主要研究方向为离散事件动态系统，强化学习，神经元动态规划及智能优化．本文通信作者．E-mail：htang@hfut．edu．cn 裴荣合肥工业大学计算机与信息学院硕士研究生．2010年获得合肥工业大学计算机与信息学院学士学位．主要研究方向为强化学习，生产线优化．E-mail：peirong_1987@163．com 周雷合肥工业大学计算机与信息学院博士研究生．2006年获得合肥工业大学计算机与信息学院硕士学位．主要研究方向为离散事件动态系统，强化学习，智能优化方法．Email：zhouleizhl@163．com 谭琦合肥工业大学电气与自动化工程学院讲师，博士．主要研究方向为生产优化调度，智能计算方法．E-mail：tanqi@hfut．edu．cn

引文网络
相关文献

参考文献16

1Matsui M. A generalized model of convey-serviced production station (CSPS). Journal of Japan Industrial Management Association, 1993, 44(1): 25-32.
2Matsui M. CSPS model: look-ahead controls and physics. International Journal of Production Research, 2005, 43(10): 2001-2025.
3Hao T, Tamio A. Look-ahead control of conveyor-serviced production station by using potential-based online policy iteration. International Journal of Control, 2009, 82(10): 1917-1928.
4Yamada T, Satomi K, Matsui M. Strategic selection of assembly systems under viable demands. Assembly Automation, 2006, 26(4): 335-342.
5Nakase N, Yamada T, Matsui M. A management design approach to a simple flexible assembly system. International Journal of Production Economics, 2002, 76(3): 281-292.
6Feyzbakhsh S A, Matsui M. Adam-eve-like genetic algorithm: a methodology for optimal design of a simple flexible assembly system. Computers & Industrial Engineering, 1999, 36(2): 233-258.
7唐昊,万海峰,韩江洪,周雷.基于多Agent强化学习的多站点CSPS系统的协作Look-ahead控制[J].自动化学报,2010,36(2):289-296. 被引量：8
8Yan Q C, Liu Q, Hu D J. A hierarchical reinforcement learning algorithm based on heuristic reward function. In: Proceedings of the 2nd IEEE International Conference on Advanced Computer Control. Shenyang, China: IEEE, 2010. 371-376.
9Botvinick M M. Hierarchical reinforcement learning and decision making. Current Opinion in Neurobiology, 2012, 22(6): 956-962.
10Jia Q S. Event-based optimization with lagged state information. In: Proceedings of the 31st Chinese Control Conference. Hefei, China: IEEE, 2012. 2055-2060.

二级参考文献2

1TANGHao YUANJi-Bin LUYang CHENGWen-Juan.Performance Potential-based Neuro-dynamic Programming for SMDPs[J].自动化学报,2005,31(4):642-645. 被引量：10
2唐昊,丁丽洁,程文娟,周雷.搬运系统作业分配问题的小脑模型关节控制器Q学习算法[J].控制理论与应用,2009,26(8):884-888. 被引量：3

共引文献7

1任付彪,周雷,马学森,魏振春.事件驱动Q学习在呼叫接入控制中的应用[J].合肥工业大学学报（自然科学版）,2011,34(1):76-79.
2周雷,孔凤,唐昊,张建军.小脑模型关节控制器网络在传送带给料生产加工站学习优化控制中的应用[J].控制理论与应用,2011,28(11):1665-1670. 被引量：2
3程玉虎,冯涣婷,王雪松.基于参数探索的期望最大化策略搜索[J].自动化学报,2012,38(1):38-45. 被引量：4
4刘冰,唐昊,周雷.基于CMAC神经网络的多工序CSPS系统分层优化控制[J].电子技术（上海）,2012,39(7):11-16.
5乔阳,唐昊,程文娟,江琦,马学森.一种基于多Agent强化学习的无线传感器网络多路径路由协议[J].合肥工业大学学报（自然科学版）,2016,39(7):896-899. 被引量：7
6唐昊,李博川,王彬,谭琦.两类品种工件混流的多站点CSPS系统优化控制[J].控制与决策,2017,32(9):1614-1620. 被引量：2
7张耀中,胡小方,周跃,段书凯.基于多层忆阻脉冲神经网络的强化学习及应用[J].自动化学报,2019,45(8):1536-1547. 被引量：11

同被引文献7

1杨超林,沈厚才,高春燕.按单装配系统中组件生产和库存分配控制策略研究[J].自动化学报,2011,37(2):234-240. 被引量：7
2花丙威,魏琳,王芳,任俊学.基于脆弱性的灾后路网修复优化[J].公路工程,2013,38(3):18-21. 被引量：2
3苏兆品,张婷,张国富,尤小泉,蒋建国.基于云模型和模糊聚合的应急方案评估[J].模式识别与人工智能,2014,27(11):1047-1056. 被引量：11
4李稚,谭德庆.基于马尔科夫决策过程的ATO系统独立组件与产品双需求最优决策研究[J].自动化学报,2016,42(5):782-791. 被引量：1
5张国富,王永奇,苏兆品,蒋建国.应急救援物资多目标分配与调度问题建模与求解[J].控制与决策,2017,32(1):86-92. 被引量：42
6徐茂鑫,张孝顺,余涛.迁移蜂群优化算法及其在无功优化中的应用[J].自动化学报,2017,43(1):83-93. 被引量：18
7苏兆品,张国富,蒋建国,岳峰,张婷.基于非支配排序差异演化的应急资源多目标分配算法[J].自动化学报,2017,43(2):195-214. 被引量：18

引证文献1

1苏兆品,李沫晗,张国富,刘扬.基于Q学习的受灾路网抢修队调度问题建模与求解[J].自动化学报,2020,46(7):1467-1478. 被引量：8

二级引证文献8

1张国富,涂冰花,苏兆品,岳峰.一种面向严重受损路网的抢修队调度算法[J].控制与决策,2021,36(7):1663-1671. 被引量：6
2高鹏,苏雍贺,左颖,陶飞.基于强化学习的分布式光伏运维资源动态调度[J].计算机集成制造系统,2022,28(2):552-563. 被引量：2
3毛新华,王建伟,袁长伟,张儒杰.基于韧性最优的灾后公路网修复调度研究[J].中国公路学报,2022,35(6):289-298. 被引量：9
4张国富,常加远,苏兆品,沈宇锋.大量需求点下基于深度Q学习的受损路网抢修队调度[J].控制与决策,2022,37(12):3267-3277. 被引量：4
5张国富,沈宇锋,宋晓晓,苏兆品.受灾路网抢修队动态调度问题的建模与求解方法[J].计算机工程,2023,49(6):300-313. 被引量：1
6郝新军,毛新华,谭晓燕,王建伟.基于强化学习的灾后公路网修复决策研究[J].中国公路学报,2023,36(8):292-304. 被引量：2
7樊燕青,肖磊,杨丽,李世隆,吴宗江,何紫齐.电动自行车工业园区消防应急管理策略研究[J].中国自行车,2024(1):118-123.
8张国富,朱前顺,苏兆品,岳峰.基于双层交互Q学习的路网抢修和物资配送联合调度[J].控制与决策,2024,39(12):4109-4117. 被引量：1

1Jana Schmidt,Stefan Kramer.Online Induction of Probabilistic Real-Time Automata[J].Journal of Computer Science & Technology,2014,29(3):345-360.
2周雷,孔凤,唐昊,张建军.小脑模型关节控制器网络在传送带给料生产加工站学习优化控制中的应用[J].控制理论与应用,2011,28(11):1665-1670. 被引量：2
3唐昊,万海峰,韩江洪,周雷.基于多Agent强化学习的多站点CSPS系统的协作Look-ahead控制[J].自动化学报,2010,36(2):289-296. 被引量：8
4Lilli Manolis Sherman.带来巨大回报的订制化输送系统[J].现代塑料,2009(12):40-41.
5择青.发展我国数据库产业的有效探索[J].信息世界,1996(5):21-21. 被引量：1
6范之望.数据库发展上的一个里程碑原状XML数据库[J].深圳特区科技,2002(3):36-39. 被引量：1
7赵泓,何花,张志广.用U.L.N.神经网络实现的滤波器[J].小型微型计算机系统,2000,21(4):383-384.
8黄浩,唐昊,周雷,程文娟.服务率不确定的单站点传送带给料加工站系统鲁棒优化控制[J].计算机应用,2015,35(7):2067-2072.
9李春贵,吴沧浦,刘永信.一种基于状态聚类的SARSA(λ)强化学习算法[J].计算机工程,2003,29(5):37-38. 被引量：3
10苗萌萌,许鋆,罗雄麟.基于状态空间模型的双时间尺度预测控制算法[J].计算机与应用化学,2016,33(10):1108-1114.

自动化学报

2014年第5期

浏览历史

内容加载中请稍等...

基于状态聚类的多站点CSPS系统的协同控制方法被引量：1

参考文献16

二级参考文献2

共引文献7

同被引文献7

引证文献1

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于状态聚类的多站点CSPS系统的协同控制方法 被引量：1

参考文献16

二级参考文献2

共引文献7

同被引文献7

引证文献1

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于状态聚类的多站点CSPS系统的协同控制方法被引量：1