期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
6
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于探索-利用模型优化AFL变异的方法
1
作者
徐鹏
刘嘉勇
林波
《信息网络安全》
CSCD
北大核心
2019年第6期61-67,共7页
模糊测试是通过不断生成不同的输入来测试程序从而发现并识别安全漏洞,已经广泛应用于漏洞挖掘中。目前灰盒模糊测试是最流行的模糊测试策略,它将轻量级代码插桩与数据反馈驱动相结合,以生成新的程序输入。AFL(American Fuzzy Lop)是一...
模糊测试是通过不断生成不同的输入来测试程序从而发现并识别安全漏洞,已经广泛应用于漏洞挖掘中。目前灰盒模糊测试是最流行的模糊测试策略,它将轻量级代码插桩与数据反馈驱动相结合,以生成新的程序输入。AFL(American Fuzzy Lop)是一种卓越的灰盒模糊测试工具,其以高效的forkserver执行、可靠的遗传算法和多种的变异策略著称,但其变异策略主要采样随机变异,存在较大的盲目性。文章提出了一种运用强化学习的方法来优化变异的策略,以多摇臂赌博机问题为模型,记录不同变异方式产生的输入在目标程序中的执行效果,利用探索-利用算法自适应地学习变异操作结果的概率分布情况,智能地进行变异操作策略调整,提升AFL的模糊测试性能。文章选择汤普森采样为优化算法设计实现了AFL-EE模糊测试工具,并对5类常用的文件类程序进行了验证测试,实验表明该方法能自动调整变异操作策略,有效地产生覆盖率高的测试输入,方法可行、额外资源消耗较小,总体上优于AFL工具。
展开更多
关键词
AFL
多摇臂赌博机
探索
-
利用
汤普森采样
在线阅读
下载PDF
职称材料
合法利用与有效探索:机构改革中的地方新部门如何实现真正整合?——基于F市自然资源和规划局的案例研究
被引量:
7
2
作者
任敏
李玄
《北京行政学院学报》
CSSCI
北大核心
2019年第5期35-43,共9页
通过构建基于“合法性-有效性”的“利用-探索”框架,以观察本轮机构改革中的地方新部门是如何实现组织层面、职能层面和人员层面的真正整合的。研究发现,面临组织整合、职能整合、人员整合的新部门,会主动对所拥有的资源进行基于合法...
通过构建基于“合法性-有效性”的“利用-探索”框架,以观察本轮机构改革中的地方新部门是如何实现组织层面、职能层面和人员层面的真正整合的。研究发现,面临组织整合、职能整合、人员整合的新部门,会主动对所拥有的资源进行基于合法性基础上的利用,并不断以有效性为主旨进行探索以开辟新环境下工作领域的新天地。在潜在的新部门形成时期,主要体现为主动地依托已有的、在上一轮机构改革后形成的“三定方案”以及其他法律法规对所掌握的职能和资源进行利用。在前置新部门形成阶段,为实现空间整合与未来路径的打造,在物理空间和人员配置上向着实体化迈进。协调与会商作为一种迅速实现人员、职能和组织领导的“真正整合”的具体方式,在不断探索的过程中得以发展。最后在新部门成立时期的新阶段,则主要在组织领导的顶层融合和中层管理者与业务干部的“专业聚合”两个层面,通过合法利用和有效探索,形成“人与事合、心与力合”的局面,从而实现真正整合。
展开更多
关键词
机构改革
利用-探索
合法性
-
有效性
在线阅读
下载PDF
职称材料
基于轨迹感知的稀疏奖励探索方法
3
作者
张启阳
陈希亮
张巧
《计算机科学》
CSCD
北大核心
2023年第1期262-269,共8页
现有的深度强化学习算法在处理稀疏奖励问题时常常会导致探索困难的问题,其往往只依赖于预先设计好的环境奖励,从而难以取得较好的效果。在这种场景中,需要更加细致地设计奖励,对智能体的探索状态做出更精准的判断并反馈。异步优势表演...
现有的深度强化学习算法在处理稀疏奖励问题时常常会导致探索困难的问题,其往往只依赖于预先设计好的环境奖励,从而难以取得较好的效果。在这种场景中,需要更加细致地设计奖励,对智能体的探索状态做出更精准的判断并反馈。异步优势表演者评论家算法(Asynchronous Advantage Actor-Critic,A3C)通过并行训练来提升训练效率,提升了原有算法的训练速度,但是对于奖励稀疏的环境,其不能很好地解决探索困难的问题。针对A3C算法在稀疏奖励环境中探索效果不佳的问题,提出了一种基于探索轨迹自动感知的A3C算法(Exploration Trajectory Perception A3C,ETP-A3C)。该算法在训练中探索困难时能够感知智能体的探索轨迹,进一步判断并决策智能体的探索方向,帮助智能体尽快走出探索困境。为了验证ETP-A3C算法的有效性,将其与基线算法在超级马里奥兄弟中的5个不同环境中进行了对比实验,结果表明,所提算法在学习速度和模型稳定性上均有较明显的提升。
展开更多
关键词
人工智能
知识迁移
深度强化学习
A3C算法
探索
-
利用
问题
在线阅读
下载PDF
职称材料
一种新的蚁群优化算法信息素更新策略及其性能分析
被引量:
2
4
作者
颜晨阳
张友鹏
熊伟清
《计算机应用研究》
CSCD
北大核心
2007年第7期86-88,91,共4页
针对蚁群优化算法的关键步骤——信息素轨迹更新过程进行了深入分析。通过理论上的证明和实验验证,提出了信息素轨迹更新中存在着一个利用—探索困境;在此基础上针对这个现象提出了一种基于Metrop-olis接受准则的信息素更新策略,并通过...
针对蚁群优化算法的关键步骤——信息素轨迹更新过程进行了深入分析。通过理论上的证明和实验验证,提出了信息素轨迹更新中存在着一个利用—探索困境;在此基础上针对这个现象提出了一种基于Metrop-olis接受准则的信息素更新策略,并通过在不同规模的TSP上的实验,证明了这种新策略的有效性。
展开更多
关键词
蚁群优化算法
信息素更新策略
利用-探索
困境
Metropolis接受准则
在线阅读
下载PDF
职称材料
带有特征感知的D2D内容缓存策略
被引量:
2
5
作者
杨静
李金科
《电子与信息学报》
EI
CSCD
北大核心
2020年第9期2201-2207,共7页
设备到设备通信(D2D)可以有效地卸载基站流量,在D2D网络中不仅需要共享大众化内容还需要个性化内容缓存。该文对缓存内容选择问题进行了深入研究,提出一种结合特征感知的内容社交价值预测(CSVP)方法。价值预测不仅可以降低时延也可以减...
设备到设备通信(D2D)可以有效地卸载基站流量,在D2D网络中不仅需要共享大众化内容还需要个性化内容缓存。该文对缓存内容选择问题进行了深入研究,提出一种结合特征感知的内容社交价值预测(CSVP)方法。价值预测不仅可以降低时延也可以减少缓存替换次数降低缓存成本。首先结合用户特征和内容特征计算内容当前价值,然后通过用户社交关系计算未来价值。微基站根据内容的价值为用户提供个性化内容缓存服务,宏基站则在每个微基站的缓存内容中选择价值较大部分的内容。仿真结果表明,该文提出的缓存策略可以有效缓解基站流量,与其他方法相比降低时延约20%~40%。
展开更多
关键词
边缘网络
D2D通信
内容缓存
探索
-
利用
价值预测
在线阅读
下载PDF
职称材料
面向综合能源系统的多智能体协同AGC策略
被引量:
11
6
作者
席磊
王昱昊
+3 位作者
陈宋宋
陈珂
孙梦梦
周礼鹏
《电机与控制学报》
EI
CSCD
北大核心
2022年第4期77-88,共12页
针对大规模可再生能源接入电网所带来的强随机扰动问题,从自动发电控制的角度提出感知历史经验的多智能体深度强化学习算法,即具有置信区间上界的深度强化学习(DQN-UCB)。所提方法通过置信区间上界(UCB)策略来解决传统启发式方法在平衡...
针对大规模可再生能源接入电网所带来的强随机扰动问题,从自动发电控制的角度提出感知历史经验的多智能体深度强化学习算法,即具有置信区间上界的深度强化学习(DQN-UCB)。所提方法通过置信区间上界(UCB)策略来解决传统启发式方法在平衡“探索-利用”过程中,面对随机低质量样本带来的当前和目标Q值误差较大的问题;同时,基于置信区间上界策略的优先级采样机制替代了传统深度Q学习(DQN)的均匀随机采样机制,以提高高质量样本被选取的概率,进而促使智能体快速收敛到最优策略。通过对IEEE标准两区域负荷频率控制模型和融入大规模可再生能源的分布式多区域综合能源系统模型进行仿真,结果表明,与其他智能方法相比,所提方法具有更优的控制性能、更快的收敛速度,能够获取分布式多区域综合能源系统的最优协同。
展开更多
关键词
综合能源系统
自动发电控制
多智能体
深度强化学习
置信区间上界
探索
-
利用
采样机制
在线阅读
下载PDF
职称材料
题名
基于探索-利用模型优化AFL变异的方法
1
作者
徐鹏
刘嘉勇
林波
机构
四川大学电子信息学院
四川大学网络空间安全学院
出处
《信息网络安全》
CSCD
北大核心
2019年第6期61-67,共7页
基金
国家重点研发计划[2017YFB0802904]
文摘
模糊测试是通过不断生成不同的输入来测试程序从而发现并识别安全漏洞,已经广泛应用于漏洞挖掘中。目前灰盒模糊测试是最流行的模糊测试策略,它将轻量级代码插桩与数据反馈驱动相结合,以生成新的程序输入。AFL(American Fuzzy Lop)是一种卓越的灰盒模糊测试工具,其以高效的forkserver执行、可靠的遗传算法和多种的变异策略著称,但其变异策略主要采样随机变异,存在较大的盲目性。文章提出了一种运用强化学习的方法来优化变异的策略,以多摇臂赌博机问题为模型,记录不同变异方式产生的输入在目标程序中的执行效果,利用探索-利用算法自适应地学习变异操作结果的概率分布情况,智能地进行变异操作策略调整,提升AFL的模糊测试性能。文章选择汤普森采样为优化算法设计实现了AFL-EE模糊测试工具,并对5类常用的文件类程序进行了验证测试,实验表明该方法能自动调整变异操作策略,有效地产生覆盖率高的测试输入,方法可行、额外资源消耗较小,总体上优于AFL工具。
关键词
AFL
多摇臂赌博机
探索
-
利用
汤普森采样
Keywords
AFL
multi
-
armed bandit
exploration
-
exploitation
thompson sampling
分类号
TP309 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
合法利用与有效探索:机构改革中的地方新部门如何实现真正整合?——基于F市自然资源和规划局的案例研究
被引量:
7
2
作者
任敏
李玄
机构
贵州大学公共管理学院
出处
《北京行政学院学报》
CSSCI
北大核心
2019年第5期35-43,共9页
基金
教育部人文社会科学规划基金项目(19YJAZH074)
文摘
通过构建基于“合法性-有效性”的“利用-探索”框架,以观察本轮机构改革中的地方新部门是如何实现组织层面、职能层面和人员层面的真正整合的。研究发现,面临组织整合、职能整合、人员整合的新部门,会主动对所拥有的资源进行基于合法性基础上的利用,并不断以有效性为主旨进行探索以开辟新环境下工作领域的新天地。在潜在的新部门形成时期,主要体现为主动地依托已有的、在上一轮机构改革后形成的“三定方案”以及其他法律法规对所掌握的职能和资源进行利用。在前置新部门形成阶段,为实现空间整合与未来路径的打造,在物理空间和人员配置上向着实体化迈进。协调与会商作为一种迅速实现人员、职能和组织领导的“真正整合”的具体方式,在不断探索的过程中得以发展。最后在新部门成立时期的新阶段,则主要在组织领导的顶层融合和中层管理者与业务干部的“专业聚合”两个层面,通过合法利用和有效探索,形成“人与事合、心与力合”的局面,从而实现真正整合。
关键词
机构改革
利用-探索
合法性
-
有效性
Keywords
institutional reform
utilization
-
exploration
legality
-
effectiveness
分类号
D67 [政治法律—中外政治制度]
在线阅读
下载PDF
职称材料
题名
基于轨迹感知的稀疏奖励探索方法
3
作者
张启阳
陈希亮
张巧
机构
陆军工程大学指挥控制工程学院
出处
《计算机科学》
CSCD
北大核心
2023年第1期262-269,共8页
基金
国家自然科学基金(61806221)。
文摘
现有的深度强化学习算法在处理稀疏奖励问题时常常会导致探索困难的问题,其往往只依赖于预先设计好的环境奖励,从而难以取得较好的效果。在这种场景中,需要更加细致地设计奖励,对智能体的探索状态做出更精准的判断并反馈。异步优势表演者评论家算法(Asynchronous Advantage Actor-Critic,A3C)通过并行训练来提升训练效率,提升了原有算法的训练速度,但是对于奖励稀疏的环境,其不能很好地解决探索困难的问题。针对A3C算法在稀疏奖励环境中探索效果不佳的问题,提出了一种基于探索轨迹自动感知的A3C算法(Exploration Trajectory Perception A3C,ETP-A3C)。该算法在训练中探索困难时能够感知智能体的探索轨迹,进一步判断并决策智能体的探索方向,帮助智能体尽快走出探索困境。为了验证ETP-A3C算法的有效性,将其与基线算法在超级马里奥兄弟中的5个不同环境中进行了对比实验,结果表明,所提算法在学习速度和模型稳定性上均有较明显的提升。
关键词
人工智能
知识迁移
深度强化学习
A3C算法
探索
-
利用
问题
Keywords
Artificial intelligence
Knowledge transfer
Deep reinforcement learning
Asynchronous Advantage Actor
-
Critic
Exploration
-
Utilization problem
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
一种新的蚁群优化算法信息素更新策略及其性能分析
被引量:
2
4
作者
颜晨阳
张友鹏
熊伟清
机构
兰州交通大学信息与电气工程学院
宁波大学信息科学与工程学院
出处
《计算机应用研究》
CSCD
北大核心
2007年第7期86-88,91,共4页
基金
国家自然科学基金资助项目(60472099)
文摘
针对蚁群优化算法的关键步骤——信息素轨迹更新过程进行了深入分析。通过理论上的证明和实验验证,提出了信息素轨迹更新中存在着一个利用—探索困境;在此基础上针对这个现象提出了一种基于Metrop-olis接受准则的信息素更新策略,并通过在不同规模的TSP上的实验,证明了这种新策略的有效性。
关键词
蚁群优化算法
信息素更新策略
利用-探索
困境
Metropolis接受准则
Keywords
ant colony optimization(ACO)
pheromone update strategy
exploration
-
exploitation dilemma
Metropolis rule
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
带有特征感知的D2D内容缓存策略
被引量:
2
5
作者
杨静
李金科
机构
重庆邮电大学通信与信息工程学院
重庆高校市级光通信与网络重点实验室
泛在感知与互联重庆市重点实验室
出处
《电子与信息学报》
EI
CSCD
北大核心
2020年第9期2201-2207,共7页
基金
国家自然科学基金(61871062,61771082)
重庆市高校创新团队建设计划项目(CXTDX201601020)。
文摘
设备到设备通信(D2D)可以有效地卸载基站流量,在D2D网络中不仅需要共享大众化内容还需要个性化内容缓存。该文对缓存内容选择问题进行了深入研究,提出一种结合特征感知的内容社交价值预测(CSVP)方法。价值预测不仅可以降低时延也可以减少缓存替换次数降低缓存成本。首先结合用户特征和内容特征计算内容当前价值,然后通过用户社交关系计算未来价值。微基站根据内容的价值为用户提供个性化内容缓存服务,宏基站则在每个微基站的缓存内容中选择价值较大部分的内容。仿真结果表明,该文提出的缓存策略可以有效缓解基站流量,与其他方法相比降低时延约20%~40%。
关键词
边缘网络
D2D通信
内容缓存
探索
-
利用
价值预测
Keywords
Edge network
D2D communication
Content caching
Exploration
-
exploitation
Value prediction
分类号
TN919 [电子电信—通信与信息系统]
在线阅读
下载PDF
职称材料
题名
面向综合能源系统的多智能体协同AGC策略
被引量:
11
6
作者
席磊
王昱昊
陈宋宋
陈珂
孙梦梦
周礼鹏
机构
三峡大学电气与新能源学院
中国电力科学研究院有限公司需求侧多能互补优化与供需互动技术北京市重点实验室
出处
《电机与控制学报》
EI
CSCD
北大核心
2022年第4期77-88,共12页
基金
国家自然科学基金(51707102)
文摘
针对大规模可再生能源接入电网所带来的强随机扰动问题,从自动发电控制的角度提出感知历史经验的多智能体深度强化学习算法,即具有置信区间上界的深度强化学习(DQN-UCB)。所提方法通过置信区间上界(UCB)策略来解决传统启发式方法在平衡“探索-利用”过程中,面对随机低质量样本带来的当前和目标Q值误差较大的问题;同时,基于置信区间上界策略的优先级采样机制替代了传统深度Q学习(DQN)的均匀随机采样机制,以提高高质量样本被选取的概率,进而促使智能体快速收敛到最优策略。通过对IEEE标准两区域负荷频率控制模型和融入大规模可再生能源的分布式多区域综合能源系统模型进行仿真,结果表明,与其他智能方法相比,所提方法具有更优的控制性能、更快的收敛速度,能够获取分布式多区域综合能源系统的最优协同。
关键词
综合能源系统
自动发电控制
多智能体
深度强化学习
置信区间上界
探索
-
利用
采样机制
Keywords
integrated energy system
automatic generation control
multi
-
agent
deep reinforcement learning
upper confidence bound
explore
-
exploit
sampling mechanism
分类号
TM761 [电气工程—电力系统及自动化]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于探索-利用模型优化AFL变异的方法
徐鹏
刘嘉勇
林波
《信息网络安全》
CSCD
北大核心
2019
0
在线阅读
下载PDF
职称材料
2
合法利用与有效探索:机构改革中的地方新部门如何实现真正整合?——基于F市自然资源和规划局的案例研究
任敏
李玄
《北京行政学院学报》
CSSCI
北大核心
2019
7
在线阅读
下载PDF
职称材料
3
基于轨迹感知的稀疏奖励探索方法
张启阳
陈希亮
张巧
《计算机科学》
CSCD
北大核心
2023
0
在线阅读
下载PDF
职称材料
4
一种新的蚁群优化算法信息素更新策略及其性能分析
颜晨阳
张友鹏
熊伟清
《计算机应用研究》
CSCD
北大核心
2007
2
在线阅读
下载PDF
职称材料
5
带有特征感知的D2D内容缓存策略
杨静
李金科
《电子与信息学报》
EI
CSCD
北大核心
2020
2
在线阅读
下载PDF
职称材料
6
面向综合能源系统的多智能体协同AGC策略
席磊
王昱昊
陈宋宋
陈珂
孙梦梦
周礼鹏
《电机与控制学报》
EI
CSCD
北大核心
2022
11
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部