期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
追寻“探索与利用”研究的发展轨迹及知识结构——基于文献计量研究 被引量:1
1
作者 刘林青 吕淑雅 梅诗晔 《现代情报》 CSSCI 2018年第3期150-158,共9页
探索性活动与利用性活动之间存在知识冲突与需求张力,如何从旨在长期获益的探索性活动和着眼于短期利益的利用性活动之间找寻平衡,是学术和管理实践迫切需要解决的难题。自1991年March提出探索与利用张力以来,相关研究迅速蔓延到组织的... 探索性活动与利用性活动之间存在知识冲突与需求张力,如何从旨在长期获益的探索性活动和着眼于短期利益的利用性活动之间找寻平衡,是学术和管理实践迫切需要解决的难题。自1991年March提出探索与利用张力以来,相关研究迅速蔓延到组织的许多领域。本文以WOS中1991-2016年间"探索与利用"研究的施引文献为研究对象,从关键词共现、作品共被引、关键路径3个层次进行分析,挖掘该领域的研究热点,知识基础及关键路径,以期为学者提供文献分析的便利。基于上述分析发现,当今"双元性(Ambidexterity)"是该领域的热门研究主题,与"知识管理"、"动态能力"等研究紧密相连;本研究的样本文献从基础理论,"探索与利用"张力相关研究话题,研究方法论3个方面构建了该领域的知识基础;该领域研究存在着"探索与利用"张力的表现形式及解决办法两条关键发展路径,未发现转折点。 展开更多
关键词 探索与利用 关键词共现 参考文献共被引 关键路径分析
在线阅读 下载PDF
突破假设:走出探索与利用的管理困境
2
作者 王侃 《中国软科学》 CSSCI CSCD 北大核心 2019年第S01期100-106,共7页
美国管理学家马奇教授于1991年首次提出普遍存在于管理实践中的探索与利用的管理困境问题,而后引发了学术界大量文献的探讨,然而已有研究仍未提供走出困境的清晰方案.本文首先通过引入西方冲突管理理论中的双重关怀模型,将探索与利用之... 美国管理学家马奇教授于1991年首次提出普遍存在于管理实践中的探索与利用的管理困境问题,而后引发了学术界大量文献的探讨,然而已有研究仍未提供走出困境的清晰方案.本文首先通过引入西方冲突管理理论中的双重关怀模型,将探索与利用之间的关系细化为回避矛盾、彼此适应、互相竞争、协同发展以及折中的妥协,突破马奇教授指出的探索与利用在组织内竞争稀缺资源的零和博弈的基本假设.随后,突破正交假设,运用中国古老的阴阳思想,进一步澄清了探索与利用在组织中是边界不清晰的存在形式,彼此相生相克、共生共灭.最后,突破静态假设,运用棋局思维,有效解决探索与利用行为的时机选择问题.通过以上三个针对困境问题默认理论假设的突破性论证,试图引导企业组织通过执行战略学习行为走出探索与利用的管理困境. 展开更多
关键词 探索与利用的管理困境 零和博弈假设 正交假设 静态假设 战略学习
在线阅读 下载PDF
PAC最优的RMAX-KNN探索算法 被引量:2
3
作者 李超 门昌骞 王文剑 《计算机科学与探索》 CSCD 北大核心 2020年第3期513-526,共14页
探索与利用的均衡是强化学习研究的重点之一。探索帮助智能体进一步了解环境来做出更优决策;而利用帮助智能体根据其自身当前对于环境的认知来做出当前最优决策。目前大多数探索算法只与值函数相关联,不考虑当前智能体对于环境的认知程... 探索与利用的均衡是强化学习研究的重点之一。探索帮助智能体进一步了解环境来做出更优决策;而利用帮助智能体根据其自身当前对于环境的认知来做出当前最优决策。目前大多数探索算法只与值函数相关联,不考虑当前智能体对于环境的认知程度,探索效率极低。针对此问题,提出了一种基于状态空间自适应离散化的RMAX-KNN强化学习算法,算法根据当前智能体对于环境状态空间的离散化程度改写值函数形式,然后基于此值函数对环境进行合理的探索,逐步实现对于环境状态空间的自适应离散化划分。RMAXKNN算法通过将探索与环境状态空间离散化相结合,逐渐加深智能体对于环境的认知程度,进而提高探索效率,同时在理论上证明该算法是一种概率近似正确(PAC)最优探索算法。在Benchmark环境上的仿真实验结果表明,RMAX-KNN算法可以在探索环境的同时实现对于环境状态空间的自适应离散化,并学习到最优策略。 展开更多
关键词 探索与利用的均衡 值函数 状态空间自适应离散化 概率近似正确(PAC)最优探索算法
在线阅读 下载PDF
基于动作概率的强化学习动作探索策略 被引量:3
4
作者 于飞 郝建国 张中杰 《计算机应用与软件》 北大核心 2023年第5期184-189,226,共7页
针对强化学习在应用过程中存在的探索与利用平衡问题,提出一种基于动作概率的强化学习动作探索策略。该策略结合强化学习中状态-动作值函数的大小,动态调整动作选择概率,以提高强化学习效率,解决探索与利用之间的平衡问题。通过两个格... 针对强化学习在应用过程中存在的探索与利用平衡问题,提出一种基于动作概率的强化学习动作探索策略。该策略结合强化学习中状态-动作值函数的大小,动态调整动作选择概率,以提高强化学习效率,解决探索与利用之间的平衡问题。通过两个格子世界的仿真环境,结合Q-learning算法和DeepSARSA算法进行仿真验证,对比了ε-greedy策略和Softmax分布策略,结果表明提出的探索策略具有较好的收敛速度和稳定性。 展开更多
关键词 强化学习 探索与利用 探索策略 动作选择
在线阅读 下载PDF
解决深度探索问题的贝叶斯深度强化学习算法 被引量:8
5
作者 杨珉 汪洁 《计算机科学与探索》 CSCD 北大核心 2020年第2期307-316,共10页
在强化学习领域,如何平衡探索与利用之间的关系是一个难题。近几年提出的强化学习方法主要关注如何结合深度学习技术来提高算法的泛化能力,却忽略探索利用困境这一问题。传统的强化学习方法可以有效解决探索问题,但存在着一定的限制条件... 在强化学习领域,如何平衡探索与利用之间的关系是一个难题。近几年提出的强化学习方法主要关注如何结合深度学习技术来提高算法的泛化能力,却忽略探索利用困境这一问题。传统的强化学习方法可以有效解决探索问题,但存在着一定的限制条件:马尔可夫决策过程的状态空间必须是离散并有限的。提出通过贝叶斯方法来提高深度强化算法的探索效率,并将贝叶斯线性回归中计算参数后验分布的方法扩展到人工神经网络等非线性模型中,通过结合Bootstrapped DQN和提出的计算方法得到了贝叶斯自举深度Q网络算法(BBDQN)。最后用两个环境下的实验表明了BBDQN在面对深度探索问题时的探索效率要优于DQN以及Bootstrapped DQN。 展开更多
关键词 深度强化学习 探索与利用 贝叶斯定理
在线阅读 下载PDF
组织研发投入跳跃对组织绩效的影响:市场化程度的调节效应 被引量:10
6
作者 贾慧英 王宗军 曹祖毅 《中国科技论坛》 CSSCI 北大核心 2018年第10期73-81,共9页
研发投入短时大幅的提高或者降低对组织绩效有何影响?学界对此进行了一系列探索,然而现有相关研究大多基于西方高度市场化的制度背景,没有深入考虑中国转型经济制度环境的特殊性。为了弥补这一不足,本文分析并检验了市场化程度对组织研... 研发投入短时大幅的提高或者降低对组织绩效有何影响?学界对此进行了一系列探索,然而现有相关研究大多基于西方高度市场化的制度背景,没有深入考虑中国转型经济制度环境的特殊性。为了弥补这一不足,本文分析并检验了市场化程度对组织研发投入跳跃与组织绩效的调节效应。实证结果表明,在总体市场化程度较高的地区,组织研发投入跳跃正向影响组织绩效;而在总体市场化程度较低的地区,组织研发投入跳跃负向影响组织绩效。政府与市场的关系,要素市场的发育,市场中介的发育程度与法制环境这三个方面的市场化指数正向调节研发投入跳跃与组织绩效的关系,即当这些方面的市场化指数较高时,研发投入跳跃促进组织绩效,反之则为负向影响;而非国有经济的发展和产品市场发育情况这两个维度对研发投入跳跃与组织绩效的调节效应并不显著。 展开更多
关键词 研发投入跳跃 市场化程度 组织绩效 探索与利用
在线阅读 下载PDF
基于核心-辅助技术匹配的二次创新及其演化路径研究 被引量:4
7
作者 吴晓波 窦伟 +1 位作者 高钰 黄芳俪 《管理工程学报》 CSSCI 北大核心 2011年第4期8-16,共9页
本研究提出了基于核心技术与辅助技术匹配的二次创新及其演化模型,详细归纳了后发企业创新演化路径,以解释中国本土企业的创新成功。通过对中兴通讯案例的编码和归类,本文界定了后发企业核心技术与辅助技术的学习与相关创新。通过对纵... 本研究提出了基于核心技术与辅助技术匹配的二次创新及其演化模型,详细归纳了后发企业创新演化路径,以解释中国本土企业的创新成功。通过对中兴通讯案例的编码和归类,本文界定了后发企业核心技术与辅助技术的学习与相关创新。通过对纵向分析,后发企业的创新可以分为三个阶段:在狭义二次创新阶段,后发企业进行核心技术引进模仿和本地辅助技术的利用型创新,为核心技术适配本地的辅助技术;在后二次创新阶段,后发企业进行辅助技术探索和核心技术利用,跟踪国外新兴核心技术,进行基于辅助技术研发的价值创造型创新;在一次创新阶段,后发企业进行核心技术探索,并进行辅助技术利用以推动核心技术创新。本文归纳了两个理论命题:第一,发展中国家后发企业的创新是一个核心技术从模仿引进、利用创新到探索创新的演化过程,辅助技术常常先于核心技术进入探索阶段;第二,后发企业核心技术的利用创新驱动了辅助技术探索,核心技术探索创新驱动了辅助技术利用。 展开更多
关键词 辅助技术 辅助资产 二次创新 探索与利用 共同演进
在线阅读 下载PDF
基于样本效率优化的深度强化学习方法综述 被引量:13
8
作者 张峻伟 吕帅 +2 位作者 张正昊 于佳玉 龚晓宇 《软件学报》 EI CSCD 北大核心 2022年第11期4217-4238,共22页
深度强化学习将深度学习的表示能力和强化学习的决策能力结合,因在复杂控制任务中效果显著而掀起研究热潮.以是否用Bellman方程为基准,将无模型深度强化学习方法分为Q值函数方法和策略梯度方法,并从模型构建方式、优化历程和方法评估等... 深度强化学习将深度学习的表示能力和强化学习的决策能力结合,因在复杂控制任务中效果显著而掀起研究热潮.以是否用Bellman方程为基准,将无模型深度强化学习方法分为Q值函数方法和策略梯度方法,并从模型构建方式、优化历程和方法评估等方面对两类方法分别进行了介绍.针对深度强化学习方法中样本效率低的问题进行讨论,根据两类方法的模型特性,说明了Q值函数方法过高估计问题和策略梯度方法采样无偏性约束分别是两类方法样本效率受限的主要原因.从增强探索效率和提高样本利用率两个角度,根据近年来的研究热点和趋势归纳出各类可行的优化方法,分析相关方法的优势和仍存在的问题,并对比其适用范围和优化效果.最后提出增强样本效率优化方法的通用性、探究两类方法间优化机制的迁移和提高理论完备性作为未来的研究方向. 展开更多
关键词 深度强化学习 Q值函数方法 策略梯度方法 样本效率 探索与利用
在线阅读 下载PDF
实值优化问题的非对称负相关搜索算法 被引量:1
9
作者 于润龙 赵洪科 +4 位作者 汪中 叶雨扬 张培宁 刘淇 陈恩红 《计算机研究与发展》 EI CSCD 北大核心 2019年第8期1746-1757,共12页
现实世界中的许多应用与实值优化问题紧密相关.为了求解复杂的实值优化问题,一些研究工作提出不同的元启发式假设并设计相应的搜索策略.在搜索解空间过程中,如何平衡探索解空间新区域(多样化)与实现优质解利用(集约化)之间的关系,是提... 现实世界中的许多应用与实值优化问题紧密相关.为了求解复杂的实值优化问题,一些研究工作提出不同的元启发式假设并设计相应的搜索策略.在搜索解空间过程中,如何平衡探索解空间新区域(多样化)与实现优质解利用(集约化)之间的关系,是提高元启发式搜索算法性能的关键因素之一.特别地,负相关搜索(negatively correlated search, NCS)通过在搜索进程中引入负相关的搜索趋势,促进了解的多样性,有效改进了并行爬山算法的搜索性能.负相关搜索将每一个搜索进程的搜索行为建模为概率分布,在此基础上,根据搜索进程的搜索范围的相对大小,将搜索行为进一步划分为全局搜索行为和局部搜索行为.然后提出一种新的元启发式搜索算法,即非对称负相关搜索(negatively correlated search with asymmetry, NSA),它假设具有全局搜索行为的搜索进程应尽可能远离具有局部搜索行为的搜索进程.得益于搜索进程之间非对称的负相关的搜索趋势,提出的算法相比负相关搜索拥有更优的搜索效率.实验结果表明:相比成熟的搜索方法,非对称负相关搜索在20个多模态实值优化问题上取得了最佳的整体性能. 展开更多
关键词 复杂实值优化问题 探索与利用 并行爬山算法 负相关搜索 搜索行为
在线阅读 下载PDF
基于平均序列累计奖赏的自适应ε-greedy策略 被引量:6
10
作者 杨彤 秦进 《计算机工程与应用》 CSCD 北大核心 2021年第11期148-155,共8页
探索与利用的权衡是强化学习的挑战之一。探索使智能体为进一步改进策略而采取新的动作,而利用使智能体采用历史经验中的信息以最大化累计奖赏。深度强化学习中常用"ε-greedy"策略处理探索与利用的权衡问题,未考虑影响智能... 探索与利用的权衡是强化学习的挑战之一。探索使智能体为进一步改进策略而采取新的动作,而利用使智能体采用历史经验中的信息以最大化累计奖赏。深度强化学习中常用"ε-greedy"策略处理探索与利用的权衡问题,未考虑影响智能体做出决策的其他因素,具有一定的盲目性。针对此问题提出一种自适应调节探索因子的ε-greedy策略,该策略依据智能体每完成一次任务所获得的序列累计奖赏值指导智能体进行合理的探索或利用。序列累计奖赏值越大,说明当前智能体所采用的有效动作越多,减小探索因子以便更多地利用历史经验。反之,序列累计奖赏值越小,说明当前策略还有改进的空间,增大探索因子以便探索更多可能的动作。实验结果证明改进的策略在Playing Atari 2600视频游戏中取得了更高的平均奖赏值,说明改进的策略能更好地权衡探索与利用。 展开更多
关键词 深度强化学习 探索与利用 序列累计奖赏 ε-greedy策略
在线阅读 下载PDF
基于SARSA学习的跳频系统智能抗干扰决策算法 被引量:2
11
作者 陈一波 赵知劲 《现代电子技术》 2023年第1期31-35,共5页
为了提高在干扰多变电磁环境下跳频通信系统的抗干扰性能,提出一种基于改进SARSA学习的智能抗干扰决策算法。试错是强化学习最重要的特征,它可以影响算法的长期总收益,而试错的优劣由算法探索和利用的表现决定,故文中将基于置信度上界... 为了提高在干扰多变电磁环境下跳频通信系统的抗干扰性能,提出一种基于改进SARSA学习的智能抗干扰决策算法。试错是强化学习最重要的特征,它可以影响算法的长期总收益,而试错的优劣由算法探索和利用的表现决定,故文中将基于置信度上界的动作选择策略和优先遍历思想应用于SARSA学习,以平衡智能体对状态-动作空间的探索和利用。另外,针对多种干扰并存的电磁环境以及跳频通信系统的跳速、信道划分间隔和跳频序列等可调节参数,设计了相应的系统模型、决策目标、状态-动作空间和奖赏函数。在不同干扰环境下所提算法都优于三种对比算法,表明基于置信度上界的动作选择策略和优先遍历思想的加入较好地协调了探索与利用的矛盾,提升了收敛速度和稳态性能,加强了SARSA学习对干扰环境的适应性。 展开更多
关键词 复杂电磁环境 跳频系统 抗干扰 SARSA学习 置信度上界 优先遍历 状态动作空间 探索与利用
在线阅读 下载PDF
基于深度Q网络的虚拟装配路径规划 被引量:5
12
作者 李妍 甄成刚 《计算机工程与设计》 北大核心 2019年第7期2032-2038,共7页
针对虚拟装配中自由空间相对狭窄造成的复杂环境通行性问题,提出通过跟踪和反馈的方式学习最优的动作序列决策的模糊贝叶斯-深度Q网络算法。将模糊综合评判法和贝叶斯决策算法结合起来替代深度Q网络中的ε-贪婪算法,有效进行探索与利用... 针对虚拟装配中自由空间相对狭窄造成的复杂环境通行性问题,提出通过跟踪和反馈的方式学习最优的动作序列决策的模糊贝叶斯-深度Q网络算法。将模糊综合评判法和贝叶斯决策算法结合起来替代深度Q网络中的ε-贪婪算法,有效进行探索与利用,生成最优的动作序列决策,规划待装配体的装配路径。实验结果表明,在狭窄空间中,利用模糊贝叶斯-深度Q网络算法解决虚拟装配的路径规划问题具有较好的通行性和规划效率。 展开更多
关键词 虚拟装配 路径规划 深度Q网络 探索与利用 ε-贪婪算法 模糊贝叶斯
在线阅读 下载PDF
面向非线性方程组的学习型头脑风暴优化算法 被引量:4
13
作者 程适 王雪萍 +1 位作者 刘悦 史玉回 《计算机工程》 CAS CSCD 北大核心 2023年第7期47-54,共8页
求解非线性方程组的难点是在一次运行中获取问题的多个根,常规求解方法难以同时满足解的精度和解的数量要求。提出一种基于知识学习的目标空间头脑风暴优化(LBSOOS)算法,通过将非线性方程组问题建模为多模态优化问题进行求解,在求解过... 求解非线性方程组的难点是在一次运行中获取问题的多个根,常规求解方法难以同时满足解的精度和解的数量要求。提出一种基于知识学习的目标空间头脑风暴优化(LBSOOS)算法,通过将非线性方程组问题建模为多模态优化问题进行求解,在求解过程融合算法的求解特性和待求解问题的领域知识,采用求解问题学习和求解算法学习两种学习方式解决求解精度和解集合多样性的冲突。从算法层面改进算子的学习方式,将随机解的扰动算子替换为最差解的解间学习,提高算法的整体寻优能力。通过对多模态问题进行分析,在算法中增加额外的档案集,保证输出解集合的多样性。将LBSOOS算法与5种群体智能优化算法在7个非线性方程组问题上进行性能测试,实验结果表明,LBSOOS算法在保证求解精度的条件下,在绝大多数测试问题上的求解多样性优于BSO、BSOOS、PIO等对比算法。 展开更多
关键词 群体智能 头脑风暴优化算法 探索与利用 非线性方程组 多模态优化
在线阅读 下载PDF
模糊测试变异算子调度优化模型 被引量:4
14
作者 李明磊 陆余良 +1 位作者 黄晖 朱凯龙 《小型微型计算机系统》 CSCD 北大核心 2021年第10期2190-2195,共6页
模糊测试技术是一种使用不同变异算子生成测试用例对程序进行漏洞检测的技术.当前对模糊测试技术的研究集中在变异算子的设计与程序分析两个方面,对多种变异算子之间的协同调度还没有进行深入研究.文章首先对模糊测试中通用的15个变异... 模糊测试技术是一种使用不同变异算子生成测试用例对程序进行漏洞检测的技术.当前对模糊测试技术的研究集中在变异算子的设计与程序分析两个方面,对多种变异算子之间的协同调度还没有进行深入研究.文章首先对模糊测试中通用的15个变异算子进行研究,分析不同变异算子在不同类型程序上的变异效率.文章以探索与利用模型为基础,结合变异算子变异效率变化的规律,设计了变异算子调度优化模型EE-POS,以提高模糊测试技术的漏洞挖掘效率.文章在原型系统EE-POS-AFL上实现了EE-POS变异算子调度优化模型,通过与AFL的对比实验表明EE-POS-AFL路径探索效率提高63%,漏洞检测效率提高153%. 展开更多
关键词 模糊测试 变异调度 探索与利用模型 目标优化 漏洞检测
在线阅读 下载PDF
战略联盟对新创企业合法性获取的影响研究——组织学习的中介作用 被引量:1
15
作者 何霞 苏晓华 《产经评论》 CSSCI 北大核心 2015年第3期81-93,共13页
战略联盟研究忽略新创企业这一有新生活力的组织形式,或是新创企业研究缺乏联盟战略思维及行动,都不能不说是一种缺憾。战略联盟是新创企业克服新生弱性、应对市场竞争与制度空缺并存的新兴经济环境、获取组织合法性的重要策略,而战略... 战略联盟研究忽略新创企业这一有新生活力的组织形式,或是新创企业研究缺乏联盟战略思维及行动,都不能不说是一种缺憾。战略联盟是新创企业克服新生弱性、应对市场竞争与制度空缺并存的新兴经济环境、获取组织合法性的重要策略,而战略联盟对新创企业合法性获取的作用机理研究还有待深入。基于197家新创企业的样本数据,对组织学习在战略联盟与新创企业合法性获取之间的中介作用进行实证研究。在对"战略联盟→组织学习→组织合法性"之间关系的讨论中,以中国情境下的经验证据研究发现:战略联盟不直接作用于组织合法性,而是以组织学习方式影响战略联盟与组织合法性获取之间的关系。结果表明,新创企业通过探索式学习和利用式学习,增强了企业因实施战略联盟而获得有效利用内外部资源和能力的机会,促进企业提升自身合法性水平;探索式学习和利用式学习在战略联盟与组织合法性的关系间发挥着完全中介作用;两类组织学习方式与新创企业战略联盟形式的匹配关系对新创企业获取合法性有着显著影响。 展开更多
关键词 新创企业 战略联盟 组织合法性 探索式学习与利用式学习 中介作用
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部