期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于探索-利用模型优化AFL变异的方法
1
作者 徐鹏 刘嘉勇 林波 《信息网络安全》 CSCD 北大核心 2019年第6期61-67,共7页
模糊测试是通过不断生成不同的输入来测试程序从而发现并识别安全漏洞,已经广泛应用于漏洞挖掘中。目前灰盒模糊测试是最流行的模糊测试策略,它将轻量级代码插桩与数据反馈驱动相结合,以生成新的程序输入。AFL(American Fuzzy Lop)是一... 模糊测试是通过不断生成不同的输入来测试程序从而发现并识别安全漏洞,已经广泛应用于漏洞挖掘中。目前灰盒模糊测试是最流行的模糊测试策略,它将轻量级代码插桩与数据反馈驱动相结合,以生成新的程序输入。AFL(American Fuzzy Lop)是一种卓越的灰盒模糊测试工具,其以高效的forkserver执行、可靠的遗传算法和多种的变异策略著称,但其变异策略主要采样随机变异,存在较大的盲目性。文章提出了一种运用强化学习的方法来优化变异的策略,以多摇臂赌博机问题为模型,记录不同变异方式产生的输入在目标程序中的执行效果,利用探索-利用算法自适应地学习变异操作结果的概率分布情况,智能地进行变异操作策略调整,提升AFL的模糊测试性能。文章选择汤普森采样为优化算法设计实现了AFL-EE模糊测试工具,并对5类常用的文件类程序进行了验证测试,实验表明该方法能自动调整变异操作策略,有效地产生覆盖率高的测试输入,方法可行、额外资源消耗较小,总体上优于AFL工具。 展开更多
关键词 AFL 多摇臂赌博机 探索-利用 汤普森采样
在线阅读 下载PDF
合法利用与有效探索:机构改革中的地方新部门如何实现真正整合?——基于F市自然资源和规划局的案例研究 被引量:7
2
作者 任敏 李玄 《北京行政学院学报》 CSSCI 北大核心 2019年第5期35-43,共9页
通过构建基于“合法性-有效性”的“利用-探索”框架,以观察本轮机构改革中的地方新部门是如何实现组织层面、职能层面和人员层面的真正整合的。研究发现,面临组织整合、职能整合、人员整合的新部门,会主动对所拥有的资源进行基于合法... 通过构建基于“合法性-有效性”的“利用-探索”框架,以观察本轮机构改革中的地方新部门是如何实现组织层面、职能层面和人员层面的真正整合的。研究发现,面临组织整合、职能整合、人员整合的新部门,会主动对所拥有的资源进行基于合法性基础上的利用,并不断以有效性为主旨进行探索以开辟新环境下工作领域的新天地。在潜在的新部门形成时期,主要体现为主动地依托已有的、在上一轮机构改革后形成的“三定方案”以及其他法律法规对所掌握的职能和资源进行利用。在前置新部门形成阶段,为实现空间整合与未来路径的打造,在物理空间和人员配置上向着实体化迈进。协调与会商作为一种迅速实现人员、职能和组织领导的“真正整合”的具体方式,在不断探索的过程中得以发展。最后在新部门成立时期的新阶段,则主要在组织领导的顶层融合和中层管理者与业务干部的“专业聚合”两个层面,通过合法利用和有效探索,形成“人与事合、心与力合”的局面,从而实现真正整合。 展开更多
关键词 机构改革 利用-探索 合法性-有效性
在线阅读 下载PDF
基于轨迹感知的稀疏奖励探索方法
3
作者 张启阳 陈希亮 张巧 《计算机科学》 CSCD 北大核心 2023年第1期262-269,共8页
现有的深度强化学习算法在处理稀疏奖励问题时常常会导致探索困难的问题,其往往只依赖于预先设计好的环境奖励,从而难以取得较好的效果。在这种场景中,需要更加细致地设计奖励,对智能体的探索状态做出更精准的判断并反馈。异步优势表演... 现有的深度强化学习算法在处理稀疏奖励问题时常常会导致探索困难的问题,其往往只依赖于预先设计好的环境奖励,从而难以取得较好的效果。在这种场景中,需要更加细致地设计奖励,对智能体的探索状态做出更精准的判断并反馈。异步优势表演者评论家算法(Asynchronous Advantage Actor-Critic,A3C)通过并行训练来提升训练效率,提升了原有算法的训练速度,但是对于奖励稀疏的环境,其不能很好地解决探索困难的问题。针对A3C算法在稀疏奖励环境中探索效果不佳的问题,提出了一种基于探索轨迹自动感知的A3C算法(Exploration Trajectory Perception A3C,ETP-A3C)。该算法在训练中探索困难时能够感知智能体的探索轨迹,进一步判断并决策智能体的探索方向,帮助智能体尽快走出探索困境。为了验证ETP-A3C算法的有效性,将其与基线算法在超级马里奥兄弟中的5个不同环境中进行了对比实验,结果表明,所提算法在学习速度和模型稳定性上均有较明显的提升。 展开更多
关键词 人工智能 知识迁移 深度强化学习 A3C算法 探索-利用问题
在线阅读 下载PDF
一种新的蚁群优化算法信息素更新策略及其性能分析 被引量:2
4
作者 颜晨阳 张友鹏 熊伟清 《计算机应用研究》 CSCD 北大核心 2007年第7期86-88,91,共4页
针对蚁群优化算法的关键步骤——信息素轨迹更新过程进行了深入分析。通过理论上的证明和实验验证,提出了信息素轨迹更新中存在着一个利用—探索困境;在此基础上针对这个现象提出了一种基于Metrop-olis接受准则的信息素更新策略,并通过... 针对蚁群优化算法的关键步骤——信息素轨迹更新过程进行了深入分析。通过理论上的证明和实验验证,提出了信息素轨迹更新中存在着一个利用—探索困境;在此基础上针对这个现象提出了一种基于Metrop-olis接受准则的信息素更新策略,并通过在不同规模的TSP上的实验,证明了这种新策略的有效性。 展开更多
关键词 蚁群优化算法 信息素更新策略 利用-探索困境 Metropolis接受准则
在线阅读 下载PDF
带有特征感知的D2D内容缓存策略 被引量:2
5
作者 杨静 李金科 《电子与信息学报》 EI CSCD 北大核心 2020年第9期2201-2207,共7页
设备到设备通信(D2D)可以有效地卸载基站流量,在D2D网络中不仅需要共享大众化内容还需要个性化内容缓存。该文对缓存内容选择问题进行了深入研究,提出一种结合特征感知的内容社交价值预测(CSVP)方法。价值预测不仅可以降低时延也可以减... 设备到设备通信(D2D)可以有效地卸载基站流量,在D2D网络中不仅需要共享大众化内容还需要个性化内容缓存。该文对缓存内容选择问题进行了深入研究,提出一种结合特征感知的内容社交价值预测(CSVP)方法。价值预测不仅可以降低时延也可以减少缓存替换次数降低缓存成本。首先结合用户特征和内容特征计算内容当前价值,然后通过用户社交关系计算未来价值。微基站根据内容的价值为用户提供个性化内容缓存服务,宏基站则在每个微基站的缓存内容中选择价值较大部分的内容。仿真结果表明,该文提出的缓存策略可以有效缓解基站流量,与其他方法相比降低时延约20%~40%。 展开更多
关键词 边缘网络 D2D通信 内容缓存 探索-利用 价值预测
在线阅读 下载PDF
面向综合能源系统的多智能体协同AGC策略 被引量:11
6
作者 席磊 王昱昊 +3 位作者 陈宋宋 陈珂 孙梦梦 周礼鹏 《电机与控制学报》 EI CSCD 北大核心 2022年第4期77-88,共12页
针对大规模可再生能源接入电网所带来的强随机扰动问题,从自动发电控制的角度提出感知历史经验的多智能体深度强化学习算法,即具有置信区间上界的深度强化学习(DQN-UCB)。所提方法通过置信区间上界(UCB)策略来解决传统启发式方法在平衡... 针对大规模可再生能源接入电网所带来的强随机扰动问题,从自动发电控制的角度提出感知历史经验的多智能体深度强化学习算法,即具有置信区间上界的深度强化学习(DQN-UCB)。所提方法通过置信区间上界(UCB)策略来解决传统启发式方法在平衡“探索-利用”过程中,面对随机低质量样本带来的当前和目标Q值误差较大的问题;同时,基于置信区间上界策略的优先级采样机制替代了传统深度Q学习(DQN)的均匀随机采样机制,以提高高质量样本被选取的概率,进而促使智能体快速收敛到最优策略。通过对IEEE标准两区域负荷频率控制模型和融入大规模可再生能源的分布式多区域综合能源系统模型进行仿真,结果表明,与其他智能方法相比,所提方法具有更优的控制性能、更快的收敛速度,能够获取分布式多区域综合能源系统的最优协同。 展开更多
关键词 综合能源系统 自动发电控制 多智能体 深度强化学习 置信区间上界 探索-利用 采样机制
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部