针对深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法在一些大状态空间任务中存在学习效果不佳及波动较大等问题,提出一种基于渐近式k-means聚类算法的多行动者深度确定性策略梯度(multi-actor deep deterministic po...针对深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法在一些大状态空间任务中存在学习效果不佳及波动较大等问题,提出一种基于渐近式k-means聚类算法的多行动者深度确定性策略梯度(multi-actor deep deterministic policy gradient based on progressive k-means clustering,MDDPG-PK-Means)算法.在训练过程中,对每一时间步下的状态进行动作选择时,根据k-means算法判别结果辅佐行动者网络的决策,同时随训练时间步的增加,逐渐增加k-means算法类簇中心的个数.将MDDPG-PK-Means算法应用于MuJoCo仿真平台上,实验结果表明,与DDPG等算法相比,MDDPG-PK-Means算法在大多数连续任务中都具有更好的效果.展开更多
冗余的条件独立性测试严重影响了基于约束的因果发现方法的效率和准确性。针对这一问题,本研究提出一种基于K-means聚类的因果分解方法(Causal decomposition method based on K-means clustering,CDKM)。CDKM利用K-means聚类将原始因...冗余的条件独立性测试严重影响了基于约束的因果发现方法的效率和准确性。针对这一问题,本研究提出一种基于K-means聚类的因果分解方法(Causal decomposition method based on K-means clustering,CDKM)。CDKM利用K-means聚类将原始因果发现问题划分为多个子因果发现问题,然后再将发现的子因果网络合并,从而得到完整的因果网络。具体来说,CDKM首先利用K-means聚类将原始变量集分割成k个簇;其次在每个簇中加入其他簇中与当前簇相关距离最小的两个节点,得到更新后的k个簇;然后在每个簇上进行因果发现,得到k个子因果网络;最后将所有子因果网络合并得到一个完整的因果网络。CDKM不仅避免了使用高阶条件独立性测试进行分解,还大大减少了冗余的条件独立性测试,相比传统的递归型基于约束的因果发现方法,CDKM可以将原始变量集任意分割。在8个数据集上的实验结果表明,CDKM可以极大地加速因果发现,降低了时间复杂度,且精准度优于基线模型。展开更多
文摘针对深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法在一些大状态空间任务中存在学习效果不佳及波动较大等问题,提出一种基于渐近式k-means聚类算法的多行动者深度确定性策略梯度(multi-actor deep deterministic policy gradient based on progressive k-means clustering,MDDPG-PK-Means)算法.在训练过程中,对每一时间步下的状态进行动作选择时,根据k-means算法判别结果辅佐行动者网络的决策,同时随训练时间步的增加,逐渐增加k-means算法类簇中心的个数.将MDDPG-PK-Means算法应用于MuJoCo仿真平台上,实验结果表明,与DDPG等算法相比,MDDPG-PK-Means算法在大多数连续任务中都具有更好的效果.
文摘冗余的条件独立性测试严重影响了基于约束的因果发现方法的效率和准确性。针对这一问题,本研究提出一种基于K-means聚类的因果分解方法(Causal decomposition method based on K-means clustering,CDKM)。CDKM利用K-means聚类将原始因果发现问题划分为多个子因果发现问题,然后再将发现的子因果网络合并,从而得到完整的因果网络。具体来说,CDKM首先利用K-means聚类将原始变量集分割成k个簇;其次在每个簇中加入其他簇中与当前簇相关距离最小的两个节点,得到更新后的k个簇;然后在每个簇上进行因果发现,得到k个子因果网络;最后将所有子因果网络合并得到一个完整的因果网络。CDKM不仅避免了使用高阶条件独立性测试进行分解,还大大减少了冗余的条件独立性测试,相比传统的递归型基于约束的因果发现方法,CDKM可以将原始变量集任意分割。在8个数据集上的实验结果表明,CDKM可以极大地加速因果发现,降低了时间复杂度,且精准度优于基线模型。