期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
基于DDPG-LQR的高超声速飞行器时间协同再入制导
1
作者 宋志飞 吉月辉 +2 位作者 宋雨 刘俊杰 高强 《导弹与航天运载技术(中英文)》 北大核心 2025年第1期57-64,共8页
针对多高超声速飞行器协同作战的特点,提出一种基于深度策略性梯度和线性二次型调节器(Deep Deterministic Policy Gradient-Linear Quadratic Regulator,DDPG-LQR)的时间协同再入制导方案。首先,采用序列凸优化方法生成满足多个约束的... 针对多高超声速飞行器协同作战的特点,提出一种基于深度策略性梯度和线性二次型调节器(Deep Deterministic Policy Gradient-Linear Quadratic Regulator,DDPG-LQR)的时间协同再入制导方案。首先,采用序列凸优化方法生成满足多个约束的时间协同再入轨迹及其相应的稳态控制量,并且采用Radau伪谱法离散运动学方程,以提高轨迹优化离散精度。其次,采用线性二次型调节器(Linear Quadratic Regulator,LQR)跟踪时间协同再入轨迹。为了提高协同制导精度和制导效果,采用深度策略性梯度(Deep Deterministic Policy Gradient,DDPG)在线优化LQR的权重矩阵系数。在DDPG算法中,通过引入合适的奖励函数来提高算法的优化性能。仿真结果表明,在初始状态误差和不确定性的情况下,通过与传统的LQR控制器相比,本文所提出的协同制导方案具有更好的协同制导精度和制导效果。 展开更多
关键词 多高超声速飞行器 协同制导 序列凸优化 深度策略性梯度 线性二次型调节器
在线阅读 下载PDF
异策略模仿-强化学习序列推荐算法 被引量:1
2
作者 刘珈麟 贺泽宇 李俊 《计算机应用研究》 CSCD 北大核心 2024年第5期1349-1355,共7页
最近,强化学习序列推荐系统受到研究者们的广泛关注,这得益于它能更好地联合建模用户感兴趣的内动态和外倾向。然而,现有方法面临同策略评估方法数据利用率低,导致模型依赖大量的专家标注数据,以及启发式价值激励函数设计依赖反复人工... 最近,强化学习序列推荐系统受到研究者们的广泛关注,这得益于它能更好地联合建模用户感兴趣的内动态和外倾向。然而,现有方法面临同策略评估方法数据利用率低,导致模型依赖大量的专家标注数据,以及启发式价值激励函数设计依赖反复人工调试两个主要挑战。因此,提出了一种新颖的异策略模仿-强化学习的序列推荐算法COG4Rec,以提高数据利用效率和实现可学习的价值函数。首先,它通过异策略方式更新分布匹配目标函数,来避免同策略更新密集在线交互限制;其次,COG4Rec采用可学习的价值函数设计,通过对数衰减状态分布比,模仿用户外倾向的价值激励函数;最后,为了避免模仿学习分布漂移问题,COG4Rec通过累积衰减分布比,强化用户行为记录中高价值轨迹片段重组推荐策略。一系列基准数据集上的性能对比实验和消融实验结果表明:COG4Rec比自回归模型提升了17.60%,它比启发式强化学习方法提升了3.25%。这证明了所提模型结构和优化算法的有效性。这也证明可学习的价值函数是可行的,并且异策略方式能有效提高数据利用效率。 展开更多
关键词 异策略评估 模仿学习 逆强化学习 序列推荐
在线阅读 下载PDF
基于序贯博弈模型的发电商竞价策略分析 被引量:5
3
作者 李清清 周建中 +1 位作者 莫莉 张勇传 《电网技术》 EI CSCD 北大核心 2008年第14期85-89,共5页
针对电力市场中水火电厂的竞价过程,利用Stackelberg序贯博弈模型对完全信息下各电厂的异步决策过程进行了建模分析,并求解出各电厂的最优发电策略。通过将完全信息下的Stackelberg博弈模型的竞价结果与不完全信息下Stackelberg博弈模... 针对电力市场中水火电厂的竞价过程,利用Stackelberg序贯博弈模型对完全信息下各电厂的异步决策过程进行了建模分析,并求解出各电厂的最优发电策略。通过将完全信息下的Stackelberg博弈模型的竞价结果与不完全信息下Stackelberg博弈模型和完全信息下Cournot博弈模型的竞价结果进行对比,分析了竞价信息和优先政策对竞价过程和各电厂决策的影响,并得出在电力系统处于不同供需状态时,应引导形成不同类型竞价市场的结论。算例验证了结论的正确性。 展开更多
关键词 序贯博弈 STACKELBERG模型 不完全信息 优先政策 电力市场
在线阅读 下载PDF
穿越策略下考虑相关性的货位优化方法 被引量:14
4
作者 李英德 鲁建厦 潘国强 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2012年第8期1424-1430,共7页
为研究品项相关性对拣货效率的影响规律,通过分析穿越策略下分区分批拣货时品项间相关性关系的特点,以批次拣货时间最短为目标建立了货位指派优化的数学模型,提出基于品项相关性的货位指派优化算法(SASC_C),该算法以COI法解为初始解,通... 为研究品项相关性对拣货效率的影响规律,通过分析穿越策略下分区分批拣货时品项间相关性关系的特点,以批次拣货时间最短为目标建立了货位指派优化的数学模型,提出基于品项相关性的货位指派优化算法(SASC_C),该算法以COI法解为初始解,通过货位逐次变换策略将相关性强的品项尽可能的指派到尽可能少的巷道中来提高拣货效率.算法测试结果表明:SASC_C算法的收敛速度明显快于不考虑相关性的随机型算法(SASR);求解质量平均改进约1.06%~10.6%,比COI法的解平均改进0.73%~14.6%;相关性强度越高,改进效果越明显;在穿越策略下,改进效果随访问巷道数的增多而减弱.充分利用品项间的相关性关系进行货位优化,有利于提高穿越策略下的拣货效率. 展开更多
关键词 货位化优 品项相关性 SASC_C算法 货位逐次变换策略 穿越策略 拣货效率
在线阅读 下载PDF
基于自主体的经济危机模拟 被引量:4
5
作者 顾高翔 王铮 姚梓璇 《复杂系统与复杂性科学》 EI CSCD 2011年第4期27-35,共9页
基于自主体模拟的建模工具,结合序列创新理论,将创新体系引入自主体模型之中,开发了基于自主体的宏观经济过程模拟系统,并使用该系统用于对经济危机进行模拟,通过比较不同的金融政策对经济危机发生的原因和解决经济危机的办法做了初步... 基于自主体模拟的建模工具,结合序列创新理论,将创新体系引入自主体模型之中,开发了基于自主体的宏观经济过程模拟系统,并使用该系统用于对经济危机进行模拟,通过比较不同的金融政策对经济危机发生的原因和解决经济危机的办法做了初步的探究。研究结果表明,政府采取过分宽松的金融政策尽管可以在一段时间内使市场一片繁荣,社会产出快速增长,但是也会造成严重的通货膨胀,是金融危机乃至经济危机的产生的重要的原因。而在经济危机发生之后,开始可以采取适当的货币宽松政策,恢复就业、创新,提高生产技术,接着要稳定货币,防止震荡性通货膨胀。 展开更多
关键词 基于自主体模拟 经济危机 序列创新 政策
在线阅读 下载PDF
专利政策视角下的序贯创新决策分析 被引量:3
6
作者 方文丽 方世建 《运筹与管理》 CSSCI CSCD 北大核心 2020年第9期101-105,共5页
在序贯创新中,前期创新者因为专利政策的保护,其技术的“专有性”可能会对后续创新者产生“钳制”(holdup)。信息对称下,事前报价机制可以避免holdup问题,但是信息不对称时,事前报价机制可能失效。我们分析了在成本信息不对称和收益信... 在序贯创新中,前期创新者因为专利政策的保护,其技术的“专有性”可能会对后续创新者产生“钳制”(holdup)。信息对称下,事前报价机制可以避免holdup问题,但是信息不对称时,事前报价机制可能失效。我们分析了在成本信息不对称和收益信息不对称这两种情况下的序贯创新的决策问题,给出了holdup发生的条件和概率,并且指出了社会福利最优下的专利政策函数。 展开更多
关键词 序贯创新 钳制 最优专利政策 社会福利
在线阅读 下载PDF
二孩生育政策实施后育龄夫妻生育意愿的年代差异与内在机制——一项计量社会学的实证研究 被引量:7
7
作者 邱幼云 《浙江社会科学》 CSSCI 北大核心 2022年第9期74-85,46,158,共14页
本文实证分析了不同个体资本的育龄夫妻生育意愿的年代差异及内在机制,并检验了成本与效用假说的中国适用性。在二孩生育政策实施后的六年多时间,生育意愿的演变趋势与国家统计数据显示一致,即呈现弱化之势;但不同年代以及个体资本育龄... 本文实证分析了不同个体资本的育龄夫妻生育意愿的年代差异及内在机制,并检验了成本与效用假说的中国适用性。在二孩生育政策实施后的六年多时间,生育意愿的演变趋势与国家统计数据显示一致,即呈现弱化之势;但不同年代以及个体资本育龄夫妻的生育意愿存在较大差异,其中经济资本与社会资本影响的年代差异较大,而文化资本影响的年代差异较小;生育子女的内在机制由经济资本而非文化资本与社会资本决定;在我国,经济资本的影响机制与成本与效用假说一致,而文化资本和社会资本的影响机制却与其相悖。最后,本文对研究发现进行了相应讨论并指出了今后需要研究的课题。 展开更多
关键词 二孩生育政策 育龄夫妻 生育意愿 顺序逻辑模型
在线阅读 下载PDF
区域政策协调模式选择及其对区域市场一体化的影响 被引量:2
8
作者 王春雷 《中央财经大学学报》 CSSCI 北大核心 2015年第5期106-112,共7页
市场一体化对区域经济协调发展至关重要,需要地方政府制定相互协调的经济发展政策。笔者基于组织经济学的分析框架,构建理论模型来考察集权、平行、序贯、单边四种区域政策协调模式的效果,并研究不同政策选择对区域市场一体化的影响。... 市场一体化对区域经济协调发展至关重要,需要地方政府制定相互协调的经济发展政策。笔者基于组织经济学的分析框架,构建理论模型来考察集权、平行、序贯、单边四种区域政策协调模式的效果,并研究不同政策选择对区域市场一体化的影响。结果表明:在上级政府统一制定政策的集权模式下,市场整合程度较高且协调损失最小,但考虑到上下级政府之间存在严重的信息不对称问题,可行性不强;以某一地区为中心的单边模式能够实现区域市场完全一体化,但会对非中心地区造成巨大的效率损失,因而并非好的政策选择;相较之下,平行模式和序贯模式是可行性较强的两种区域政策协调模式。当市场一体化对不同地区的重要程度差异较小时,应采取平行模式,地方政府同时制定政策并自发协调;反之,则应采取序贯模式,且由市场一体化重要程度较强的地区先行制定政策。从我国区域经济发展的现实情况来看,上述结论得到了实践层面的部分印证。 展开更多
关键词 区域政策协调 市场一体化 平行模式 序贯模式
在线阅读 下载PDF
基于序贯博弈多智能体强化学习的综合模块化航空电子系统重构方法 被引量:8
9
作者 张涛 张文涛 +3 位作者 代凌 陈婧怡 王丽 魏倩茹 《电子学报》 EI CAS CSCD 北大核心 2022年第4期954-966,共13页
动态重构是一种有效的综合模块化航空电子系统故障容错方法.重构蓝图定义了系统故障环境下的应用迁移与资源重配置方案,是以最小代价重构恢复系统功能的关键.在复杂多级关联故障模式下,如何快速自动生成有效重构蓝图是其难点.针对该问题... 动态重构是一种有效的综合模块化航空电子系统故障容错方法.重构蓝图定义了系统故障环境下的应用迁移与资源重配置方案,是以最小代价重构恢复系统功能的关键.在复杂多级关联故障模式下,如何快速自动生成有效重构蓝图是其难点.针对该问题,本文提出一种基于序贯博弈多智能体强化学习的综合模块化航空电子系统重构方法.该方法引入序贯博弈模型,将因受故障影响而需要迁移重构的应用软件定义为博弈中的智能体,根据应用软件优先级确定序贯博弈的顺序.针对序贯博弈过程中多智能体间竞争与合作的问题,算法使用强化学习中的策略梯度,通过控制与环境交互中的动作选择概率来优化重构效果.应用基于有偏估计的策略梯度蒙特卡洛树搜索算法更新博弈策略,解决了传统策略梯度算法震荡难收敛、计算耗时长问题.实验结果表明,与差分进化、Q学习等方法相比,所提算法的优化性能和稳定性均具有显著优势. 展开更多
关键词 综合模块化航空电子系统 序贯博弈 策略梯度 多智能体强化学习 蒙特卡洛树搜索 重构
在线阅读 下载PDF
网络存储系统中低开销高性能的第二级缓存替换算法的研究
10
作者 赵英杰 肖侬 《计算机工程与科学》 CSCD 北大核心 2012年第5期84-88,共5页
针对网络存储访问特性所带来的第二级缓存性能降低的问题,提出了一种高性能的第二级缓存替换算法。本算法采用顺序页面检测机制,能根据缓存页面顺序程度的不同做出替换选择,以减少缓存失效引起随机访问磁盘的次数,避免不必要的磁头寻道... 针对网络存储访问特性所带来的第二级缓存性能降低的问题,提出了一种高性能的第二级缓存替换算法。本算法采用顺序页面检测机制,能根据缓存页面顺序程度的不同做出替换选择,以减少缓存失效引起随机访问磁盘的次数,避免不必要的磁头寻道和旋转开销,从而改善整个存储系统的性能。实验结果表明,在多种缓存大小下,本文算法能显著降低有效响应时间,使网络存储系统达到更优的性能。 展开更多
关键词 第二级缓存 替换算法 顺序页面检测
在线阅读 下载PDF
用新理论新方法引导南方海相地层油气勘探研究
11
作者 贾振远 《海相油气地质》 1996年第2期1-3,共3页
根据扬子地区地质和油气的特殊性,提出下扬子地区海相地层可依据二级层序开展盆地分析、层序地层研究和含油气系统的分析,以恢复二级层序的古面貌。重要的是了解上覆二级层序的地质事件对下伏二级层序的改造作用,以认清改造后的新平衡(... 根据扬子地区地质和油气的特殊性,提出下扬子地区海相地层可依据二级层序开展盆地分析、层序地层研究和含油气系统的分析,以恢复二级层序的古面貌。重要的是了解上覆二级层序的地质事件对下伏二级层序的改造作用,以认清改造后的新平衡(物理场、应力场、化学场、温度场、含油气系统),建立符合实际的地质模型。 展开更多
关键词 油气勘探 海相地层 地质特征
在线阅读 下载PDF
基于创意序列学习的艺术风格学习与绘制系统 被引量:3
12
作者 谢宁 赵婷婷 +2 位作者 杨阳 魏琴 Heng Tao SHEN 《软件学报》 EI CSCD 北大核心 2018年第4期1071-1084,共14页
在众多传统艺术绘画形式中,笔触是被现代计算机绘画工具(GIMP、Photoshop和Painter)普遍采用的形式之一.创新性地提出了服务于非真实感渲染AI辅助艺术创作系统(A4).系统能够实现自动生成特定艺术家风格的笔触效果.该系统在强化学习框架... 在众多传统艺术绘画形式中,笔触是被现代计算机绘画工具(GIMP、Photoshop和Painter)普遍采用的形式之一.创新性地提出了服务于非真实感渲染AI辅助艺术创作系统(A4).系统能够实现自动生成特定艺术家风格的笔触效果.该系统在强化学习框架下,主要进行以下研究工作:(1)提出基于PGPE的正则化策略学习方法以提高风格学习过程的稳定性;(2)利用IRL(inverse reinforcement learning)算法实现了艺术风格行为的模型化及其数字化保护方法.实验结果表明,所提方法行之有效地实现了针对具体个性风格的照片水墨画艺术风格转化. 展开更多
关键词 多媒体信息处理 序列数据分析 图像风格化 基于笔触的合成 逆向强化学习 策略探索
在线阅读 下载PDF
南北国家差异化碳税政策的经济—环境效应——基于碳排放责任视角的序贯博弈分析 被引量:8
13
作者 魏守道 《西安交通大学学报(社会科学版)》 CSSCI 北大核心 2020年第5期111-118,共8页
基于南北国家之间存在生产成本差异和碳减排技术差异,生产和消费单位产品存在碳排放量差异,根据碳排放责任分配的"生产者责任"原则和"消费者责任"原则,将碳税政策分为生产型碳税政策和消费型碳税政策,构建北方国家... 基于南北国家之间存在生产成本差异和碳减排技术差异,生产和消费单位产品存在碳排放量差异,根据碳排放责任分配的"生产者责任"原则和"消费者责任"原则,将碳税政策分为生产型碳税政策和消费型碳税政策,构建北方国家先于南方国家实施碳税政策的序贯博弈模型。从国家福利、企业利润和碳排放量等方面,研究南北国家碳税政策的经济效应(包括福利效应和贸易效应)和环境效应。研究发现:与实施相同的碳税政策相比,两国实施差异化碳税政策对北方国家产生福利效应的可能性较大,产生贸易效应的可能性较小,对南方国家产生福利效应和贸易效应的可能性也较小;对北方国家没有环境效应,对南方国家有环境效应,有可能对两国整体有环境效应。为此建议南北国家应实施差异化碳税政策,合理控制消费环节的碳排放量,并且北方国家应支持南方国家减排。 展开更多
关键词 碳排放 碳税政策 生产型碳税 消费型碳税 序贯博弈 经济效应 环境效应
在线阅读 下载PDF
基于序贯Nash谈判博弈的石油开采策略研究
14
作者 冯中伟 李晓婷 谭春桥 《运筹与管理》 CSSCI CSCD 北大核心 2023年第5期78-84,共7页
考虑国外环保组织与石油开采公司游说发展中国家政府制定石油开采政策的情形,构建序贯非对称Nash谈判博弈模型:政府首先与国外环保组织以及石油开采公司进行三方谈判;如果三方谈判破裂,则政府选择一方进行双边谈判,谈判破裂点为政府与... 考虑国外环保组织与石油开采公司游说发展中国家政府制定石油开采政策的情形,构建序贯非对称Nash谈判博弈模型:政府首先与国外环保组织以及石油开采公司进行三方谈判;如果三方谈判破裂,则政府选择一方进行双边谈判,谈判破裂点为政府与另一方进行双边谈判的结果;如果后者的双边谈判破裂,则政府选择最大化国家福利的石油开采政策。研究表明:在三方谈判中,如果一个游说团体筹集资金的成本低或政府对其缴纳的费用给予更高的评估,则该游说团体对政府决策具有更大的影响;三方谈判破裂后对政府决策仍产生影响的游说团体在三方谈判均衡中所支付的费用低于在双边谈判均衡中所支付的费用;当环保组织与政府之间不存在利益冲突时,环保组织可能受益于其维护三方谈判的行为。 展开更多
关键词 石油 开采政策 非对称Nash谈判 序贯均衡
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部