高位滑坡对建筑集群的冲击破坏时常导致严重的人员伤亡,基于光滑粒子流体动力学-离散元法-有限元法(smoothed particle hydrodynamics-discrete element method-finite element method,SPH-DEM-FEM)耦合的数值模型,开展了高位滑坡对框...高位滑坡对建筑集群的冲击破坏时常导致严重的人员伤亡,基于光滑粒子流体动力学-离散元法-有限元法(smoothed particle hydrodynamics-discrete element method-finite element method,SPH-DEM-FEM)耦合的数值模型,开展了高位滑坡对框架结构建筑群的冲击过程、建筑结构破坏机理、冲击力时程与框架柱关键点应力和弯矩等动力机制研究。研究结果表明:SPH-DEM-FEM耦合数值方法能够有效地模拟碎石土滑坡中土(SPH)石(DEM)混合物的抛射弹跳、爬高绕流冲击运动过程。考虑了常规建筑垂直、平行于滑坡流向的三排建筑组合布局,位于滑坡近端的纵向排列建筑表现为连续性倾倒破坏,横向排列的建筑则呈现整体倾倒破坏;因前排建筑群对滑坡冲击能量的耗散及滑坡自身摩擦耗能,位于滑坡后端建筑表现为引流面墙体和前排柱发生局部破坏,结构保持稳定,损毁程度依次为上游无建筑缓冲耗能的建筑>有横向排列的建筑>有纵向排列的建筑;纵向、横向排列的建筑冲击力衰减幅度分别31%、21%。横向框架建筑整体倾倒的损毁机制表现为框架柱的直接剪断或节点塑形铰链失效;纵向框架建筑连续性倾倒的损毁机制表现为前排框架柱的失效引起后排框架柱轴向压力和极限弯矩增加,持续冲击荷载超过其极限弯矩致使后排框架柱发生弯曲破坏,最终结构倾倒。系统能量在动能、内能和摩擦耗能间转化,其中摩擦耗能占65.5%,结构耗能占23.6%,动能快速下降与内能急剧增加是建筑破坏的关键特征。展开更多
离线强化学习(Offline RL)定义了从固定批次的数据集中学习的任务,能够规避与环境交互的风险,提高学习的效率与稳定性。其中优势加权行动者-评论家算法提出了一种将样本高效动态规划与最大似然策略更新相结合的方法,在利用大量离线数据...离线强化学习(Offline RL)定义了从固定批次的数据集中学习的任务,能够规避与环境交互的风险,提高学习的效率与稳定性。其中优势加权行动者-评论家算法提出了一种将样本高效动态规划与最大似然策略更新相结合的方法,在利用大量离线数据的同时,快速执行在线精细化策略的调整。但是该算法使用随机经验回放机制,同时行动者-评论家模型只采用一套行动者,数据采样与回放不平衡。针对以上问题,提出一种基于策略蒸馏并进行数据经验优选回放的优势加权双行动者-评论家算法(Advantage Weighted Double Actors-Critics Based on Policy Distillation with Data Experience Optimization and Replay,DOR-PDAWAC),该算法采用偏好新经验并重复回放新旧经验的机制,利用双行动者增加探索,并运用基于策略蒸馏的主从框架,将行动者分为主行为者和从行为者,提升协作效率。将所提算法应用到通用D4RL数据集中的MuJoCo任务上进行消融实验与对比实验,结果表明,其学习效率等均获得了更优的表现。展开更多
文摘高位滑坡对建筑集群的冲击破坏时常导致严重的人员伤亡,基于光滑粒子流体动力学-离散元法-有限元法(smoothed particle hydrodynamics-discrete element method-finite element method,SPH-DEM-FEM)耦合的数值模型,开展了高位滑坡对框架结构建筑群的冲击过程、建筑结构破坏机理、冲击力时程与框架柱关键点应力和弯矩等动力机制研究。研究结果表明:SPH-DEM-FEM耦合数值方法能够有效地模拟碎石土滑坡中土(SPH)石(DEM)混合物的抛射弹跳、爬高绕流冲击运动过程。考虑了常规建筑垂直、平行于滑坡流向的三排建筑组合布局,位于滑坡近端的纵向排列建筑表现为连续性倾倒破坏,横向排列的建筑则呈现整体倾倒破坏;因前排建筑群对滑坡冲击能量的耗散及滑坡自身摩擦耗能,位于滑坡后端建筑表现为引流面墙体和前排柱发生局部破坏,结构保持稳定,损毁程度依次为上游无建筑缓冲耗能的建筑>有横向排列的建筑>有纵向排列的建筑;纵向、横向排列的建筑冲击力衰减幅度分别31%、21%。横向框架建筑整体倾倒的损毁机制表现为框架柱的直接剪断或节点塑形铰链失效;纵向框架建筑连续性倾倒的损毁机制表现为前排框架柱的失效引起后排框架柱轴向压力和极限弯矩增加,持续冲击荷载超过其极限弯矩致使后排框架柱发生弯曲破坏,最终结构倾倒。系统能量在动能、内能和摩擦耗能间转化,其中摩擦耗能占65.5%,结构耗能占23.6%,动能快速下降与内能急剧增加是建筑破坏的关键特征。
文摘离线强化学习(Offline RL)定义了从固定批次的数据集中学习的任务,能够规避与环境交互的风险,提高学习的效率与稳定性。其中优势加权行动者-评论家算法提出了一种将样本高效动态规划与最大似然策略更新相结合的方法,在利用大量离线数据的同时,快速执行在线精细化策略的调整。但是该算法使用随机经验回放机制,同时行动者-评论家模型只采用一套行动者,数据采样与回放不平衡。针对以上问题,提出一种基于策略蒸馏并进行数据经验优选回放的优势加权双行动者-评论家算法(Advantage Weighted Double Actors-Critics Based on Policy Distillation with Data Experience Optimization and Replay,DOR-PDAWAC),该算法采用偏好新经验并重复回放新旧经验的机制,利用双行动者增加探索,并运用基于策略蒸馏的主从框架,将行动者分为主行为者和从行为者,提升协作效率。将所提算法应用到通用D4RL数据集中的MuJoCo任务上进行消融实验与对比实验,结果表明,其学习效率等均获得了更优的表现。