期刊文献+
共找到1,238篇文章
< 1 2 62 >
每页显示 20 50 100
Variable reward function-driven strategies for impulsive orbital attack-defense games under multiple constraints and victory conditions
1
作者 Liran Zhao Sihan Xu +1 位作者 Qinbo Sun Zhaohui Dang 《Defence Technology(防务技术)》 2025年第9期159-183,共25页
This paper investigates impulsive orbital attack-defense(AD)games under multiple constraints and victory conditions,involving three spacecraft:attacker,target,and defender.In the AD scenario,the attacker aims to breac... This paper investigates impulsive orbital attack-defense(AD)games under multiple constraints and victory conditions,involving three spacecraft:attacker,target,and defender.In the AD scenario,the attacker aims to breach the defender's interception to rendezvous with the target,while the defender seeks to protect the target by blocking or actively pursuing the attacker.Four different maneuvering constraints and five potential game outcomes are incorporated to more accurately model AD game problems and increase complexity,thereby reducing the effectiveness of traditional methods such as differential games and game-tree searches.To address these challenges,this study proposes a multiagent deep reinforcement learning solution with variable reward functions.Two attack strategies,Direct attack(DA)and Bypass attack(BA),are developed for the attacker,each focusing on different mission priorities.Similarly,two defense strategies,Direct interdiction(DI)and Collinear interdiction(CI),are designed for the defender,each optimizing specific defensive actions through tailored reward functions.Each reward function incorporates both process rewards(e.g.,distance and angle)and outcome rewards,derived from physical principles and validated via geometric analysis.Extensive simulations of four strategy confrontations demonstrate average defensive success rates of 75%for DI vs.DA,40%for DI vs.BA,80%for CI vs.DA,and 70%for CI vs.BA.Results indicate that CI outperforms DI for defenders,while BA outperforms DA for attackers.Moreover,defenders achieve their objectives more effectively under identical maneuvering capabilities.Trajectory evolution analyses further illustrate the effectiveness of the proposed variable reward function-driven strategies.These strategies and analyses offer valuable guidance for practical orbital defense scenarios and lay a foundation for future multi-agent game research. 展开更多
关键词 Orbital attack-defense game Impulsive maneuver Multi-agent deep reinforcement learning reward function design
在线阅读 下载PDF
Evolutionary analysis of green credit and automobile enterprises under the mechanism of dynamic reward and punishment based on government regulation
2
作者 Yu Dong Xiaoyu Huang +1 位作者 Hongan Gan Xuyang Liu 《中国科学技术大学学报》 CAS CSCD 北大核心 2024年第5期49-62,I0007,共15页
To explore the green development of automobile enterprises and promote the achievement of the“dual carbon”target,based on the bounded rationality assumptions,this study constructed a tripartite evolutionary game mod... To explore the green development of automobile enterprises and promote the achievement of the“dual carbon”target,based on the bounded rationality assumptions,this study constructed a tripartite evolutionary game model of gov-ernment,commercial banks,and automobile enterprises;introduced a dynamic reward and punishment mechanism;and analyzed the development process of the three parties’strategic behavior under the static and dynamic reward and punish-ment mechanism.Vensim PLE was used for numerical simulation analysis.Our results indicate that the system could not reach a stable state under the static reward and punishment mechanism.A dynamic reward and punishment mechanism can effectively improve the system stability and better fit real situations.Under the dynamic reward and punishment mechan-ism,an increase in the initial probabilities of the three parties can promote the system stability,and the government can im-plement effective supervision by adjusting the upper limit of the reward and punishment intensity.Finally,the implementa-tion of green credit by commercial banks plays a significant role in promoting the green development of automobile enter-prises. 展开更多
关键词 automobile enterprises green credit system dynamics reward and punishment mechanism
在线阅读 下载PDF
Tactical reward shaping for large-scale combat by multi-agent reinforcement learning
3
作者 DUO Nanxun WANG Qinzhao +1 位作者 LYU Qiang WANG Wei 《Journal of Systems Engineering and Electronics》 CSCD 2024年第6期1516-1529,共14页
Future unmanned battles desperately require intelli-gent combat policies,and multi-agent reinforcement learning offers a promising solution.However,due to the complexity of combat operations and large size of the comb... Future unmanned battles desperately require intelli-gent combat policies,and multi-agent reinforcement learning offers a promising solution.However,due to the complexity of combat operations and large size of the combat group,this task suffers from credit assignment problem more than other rein-forcement learning tasks.This study uses reward shaping to relieve the credit assignment problem and improve policy train-ing for the new generation of large-scale unmanned combat operations.We first prove that multiple reward shaping func-tions would not change the Nash Equilibrium in stochastic games,providing theoretical support for their use.According to the characteristics of combat operations,we propose tactical reward shaping(TRS)that comprises maneuver shaping advice and threat assessment-based attack shaping advice.Then,we investigate the effects of different types and combinations of shaping advice on combat policies through experiments.The results show that TRS improves both the efficiency and attack accuracy of combat policies,with the combination of maneuver reward shaping advice and ally-focused attack shaping advice achieving the best performance compared with that of the base-line strategy. 展开更多
关键词 deep reinforcement learning multi-agent reinforce-ment learning multi-agent combat unmanned battle reward shaping
在线阅读 下载PDF
Choice of discount rate in reinforcement learning with long-delay rewards 被引量:1
4
作者 LIN Xiangyang XING Qinghua LIU Fuxian 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2022年第2期381-392,共12页
In the world, most of the successes are results of longterm efforts. The reward of success is extremely high, but before that, a long-term investment process is required. People who are “myopic” only value short-ter... In the world, most of the successes are results of longterm efforts. The reward of success is extremely high, but before that, a long-term investment process is required. People who are “myopic” only value short-term rewards and are unwilling to make early-stage investments, so they hardly get the ultimate success and the corresponding high rewards. Similarly, for a reinforcement learning(RL) model with long-delay rewards, the discount rate determines the strength of agent’s “farsightedness”.In order to enable the trained agent to make a chain of correct choices and succeed finally, the feasible region of the discount rate is obtained through mathematical derivation in this paper firstly. It satisfies the “farsightedness” requirement of agent. Afterwards, in order to avoid the complicated problem of solving implicit equations in the process of choosing feasible solutions,a simple method is explored and verified by theoreti cal demonstration and mathematical experiments. Then, a series of RL experiments are designed and implemented to verify the validity of theory. Finally, the model is extended from the finite process to the infinite process. The validity of the extended model is verified by theories and experiments. The whole research not only reveals the significance of the discount rate, but also provides a theoretical basis as well as a practical method for the choice of discount rate in future researches. 展开更多
关键词 reinforcement learning(RL) discount rate longdelay reward Q-LEARNING treasure-detecting model feasible solution
在线阅读 下载PDF
Role of prefrontal cortex-nucleus accumbens glutamatergic projection in heroin reward and motivation
5
作者 ZHU Hua-qiang LAI Miao-jun +5 位作者 XU Wen-jin ZHUANG Ding-ding FU Dan HONG Qing-xiao LIU Hui-fen ZHOU Wen-hua 《中国药理学与毒理学杂志》 CAS CSCD 北大核心 2018年第9期725-726,共2页
OBJECTIVE Glutamatergic projections from prefrontal cortex(PFc) to nucleus accumbens(NAc) regulate the dopamine(DA) release in NAc.However,it is not clear whether this circuit is effective for the reward and motivatio... OBJECTIVE Glutamatergic projections from prefrontal cortex(PFc) to nucleus accumbens(NAc) regulate the dopamine(DA) release in NAc.However,it is not clear whether this circuit is effective for the reward and motivation of heroin addiction.Our study investigates the effects of metabotropic glutamate receptor 2/3(mGluR2/3) and the projections from ventromedial prefrontal cortex(vmPFc) to the NAc shell on the reward and motivation of heroin-addicted rats.METHODS First,rats were trained to selfadministration for 14 d.On the 15 thday,parts of rats were injected with mGluR 2/3 agonist LY379268(0.1,0.3 and 1.0 mg·kg-1,ip) systematically and another parts of rats were bilaterally microinjected with LY379268(0.3 and 1.0 g·L^(-1))at the volume of 0.5 μL into the ventral tegmental area(VTA),NAc core or NAc shell,respectively.All rats were followed by heroin self-administration testing under fixed ratio 1(FR1) schedule or progressed ratio(PR) schedule to observe the effect of LY379268 on the heroin reward or motivation.Second,rats were injected chemogenetic glutamatergic virus(pAAV-CaMKIIa-hM3 D(Gq)-mCherry or pAOV-CaMKIIa-hM4 D(Gi)-mCherry-3 Flag) or negative control virus in vmPFc,and trained to heroin self-administration for 14 d.On the 15 thday,rats were bilateral y microinjected with clozapine-N-oxide(CNO,1 mmol·L^(-1),0.5 μL) into NAc shell and tested the effect on the heroin reward or motivation.Finally,rats were injected optogenetical glutamatergic virus(AAV2/9-CaM KⅡ-hChR2-EYFP) or negative control virus in vmPFc,implanted 16 channel photoelectrode in ipsilateral NAc shell,and trained to heroin selfadministration for 14 d.On the 15 thday,rats were tested heroin reward under FR1 procedure with blue light stimulation in the wavelength of470 nm,frequency of 25 HZ and power of 5 mW.Each stimulation lasting for 1 h and interval for1 h.The spike changes before and after stimulation in NAc Shel neural nerve was recorded.RESULTS LY379268 cloud dose-dependent attenuated the heroin reward or motivation and the local effective site was mainly in the NAc shell.Chemogenetic results showed activation or inactivation the projection from vmPFc to NAc shell enhanced or attenuated the heroin reward and motivation,respectively.Optogenetical stimulation the same projection also enhanced the heroin reward,and a tonic neuronal firing at the nerve of NAc shell was observed during the light stimulation session.CONCLUSION mGluR2/3 activation in the NAc shell is involved in the inhibition of heroin reward and motivation.Activation the projection from PFc to NAc shell can enhance the effects on heroin reward and motivation. 展开更多
关键词 HEROIN ventromedial prefrontal cortex nucleus ACCUMBENS METABOTROPIC glutamatereceptor 2/3 reward MOTIVATION
在线阅读 下载PDF
Time Series Analysis of Wheat Futures Reward in China
6
作者 WEI Hui-hui 《Journal of Northeast Agricultural University(English Edition)》 CAS 2005年第2期177-181,共5页
Different from the fact that the main researches are focused on single futures contract and lack of the comparison of different periods, this paper described the statistical characteristics of wheat futures reward tim... Different from the fact that the main researches are focused on single futures contract and lack of the comparison of different periods, this paper described the statistical characteristics of wheat futures reward time series of Zhengzhou Commodity Exchange in recent three years. Besides the basic statistic analysis, the paper used the GARCH and EGARCH model to describe the time series which had the ARCH effect and analyzed the persistence of volatility shocks and the leverage effect. The results showed that compared with that of normal one,wheat futures reward series were abnormality, leptokurtic and thick tail distribution. The study also found that two-part of the reward series had no autocorrelation. Among the six correlative series, three ones presented the ARCH effect. By using of the Auto-regressive Distributed Lag Model, GARCH model and EGARCH model, the paper demonstrates the persistence of volatility shocks and the leverage effect on the wheat futures reward time series. The results reveal that on the one hand, the statistical characteristics of the wheat futures reward are similar to the aboard mature futures market as a whole. But on the other hand, the results reflect some shortages such as the immatureness and the over-control by the government in the Chinese future market. 展开更多
关键词 futures reward thick tail GARCH EGARCH
在线阅读 下载PDF
高风险高回报研究资助政策研究 被引量:1
7
作者 王辉 王溯 董瑜 《中国科技论坛》 北大核心 2025年第3期10-18,52,共10页
高风险高回报研究具有极高的新颖性和创新性,一旦取得成功,将带来重大科学范式的转变,对国家的长期创新和经济竞争力会产生深远、革命性的影响。本文选取国外17项、国内3项高风险高回报研究资助计划进行深入分析,探讨自由探索型和应用... 高风险高回报研究具有极高的新颖性和创新性,一旦取得成功,将带来重大科学范式的转变,对国家的长期创新和经济竞争力会产生深远、革命性的影响。本文选取国外17项、国内3项高风险高回报研究资助计划进行深入分析,探讨自由探索型和应用导向型高风险高回报研究资助的差异。研究发现,自由探索型研究通常采用为期5年的资助周期,以科学家为核心;应用导向型高风险项目资助周期和强度差异较大,表明针对不同领域和不同类型项目的资助重点和策略不同。高风险高回报研究提案的遴选标准特别强调与传统项目相比更具变革性的想法,主要采用传统的同行评议和项目经理遴选方式。自由探索型研究的资助机构倾向于采用“宽松型”管理模式,应用导向型研究的资助机构则采取“积极型”管理模式。政府的长期支持和风险容忍是确保研究成功的重要保障,人才评价导向和晋升政策应鼓励科研人员大胆创新。 展开更多
关键词 变革性研究 高风险高回报研究 资助机制
在线阅读 下载PDF
居家养老服务供应链消费补贴与质量奖惩机制研究 被引量:1
8
作者 马跃如 程雅雯 李海 《运筹与管理》 北大核心 2025年第3期126-133,I0071-I0072,共8页
为研究消费补贴和质量奖惩对居家养老服务供应链的影响,构建无政府介入机制、消费补贴机制和质量奖惩机制下的博弈模型,比较分析不同机制的实施效果。研究表明:消费补贴机制更有利于提高低收入老年人的支付能力和改善服务机构的收益状况... 为研究消费补贴和质量奖惩对居家养老服务供应链的影响,构建无政府介入机制、消费补贴机制和质量奖惩机制下的博弈模型,比较分析不同机制的实施效果。研究表明:消费补贴机制更有利于提高低收入老年人的支付能力和改善服务机构的收益状况,但也会间接导致品质型消费者需要支付更高的价格来获得服务;质量奖惩机制对提升居家养老服务机构服务质量和品质型消费者购买需求的激励作用更强,政策受益面更广。政府应充分考虑老年人异质性特征和居家养老服务市场发展程度,分类施策、多措并举,在制定科学合理的居家养老服务质量标准的前提下灵活调整补贴和奖惩力度。在市场发展初期,尤其是质量改善成本系数较大和经济型消费者比例较高的情况下,通过设置高补贴、低奖惩来扩大市场需求,增加服务供给。随着市场逐渐成熟,居家养老服务机构提升服务质量的能力和老年人对服务质量的偏好提高,可以减少消费补贴,加强质量奖惩,以促进居家养老服务供应链高质量发展。 展开更多
关键词 居家养老 服务供应链 消费补贴 质量奖惩
在线阅读 下载PDF
基于深度强化学习的高速列车驾驶策略优化 被引量:1
9
作者 徐凯 张皓桐 +2 位作者 张淼 张洋 吴仕勋 《铁道科学与工程学报》 北大核心 2025年第1期25-37,共13页
深度强化学习(DRL)是提高高速列车能源效率和运行质量最有前途的技术之一,但目前仍然存在着一些问题,限制了其在实际应用中的效果。现有解决方案存在以下两方面问题:首先,在高速列车运行环境下,DRL在处理庞大状态空间时表现不佳;其次,... 深度强化学习(DRL)是提高高速列车能源效率和运行质量最有前途的技术之一,但目前仍然存在着一些问题,限制了其在实际应用中的效果。现有解决方案存在以下两方面问题:首先,在高速列车运行环境下,DRL在处理庞大状态空间时表现不佳;其次,由于固定奖励函数难以适应不同调度运行时刻下的能效差异,智能体将受到不准确信号的干扰,通常采用手动方式调整。鉴于此,本研究在极大值原理基础上,综合考虑影响列车能效的诸多因素,提出一种高速列车智能驾驶策略的分层次优化的深度强化学习算法(HODRL)。该算法从结构上分为分层优化层和强化学习层。分层优化层利用先验知识降低智能体的探索复杂度,并根据能效场景重塑奖励函数,以实现对能效和时间等多个目标探索的有效平衡;而强化学习层则采取双延迟深度确定性策略梯度(TD3)算法,将其用于连续的动作空间,以提高列车操控的精确度。通过实验验证了HODRL算法在提升能效和准时性等方面的有效性,该算法平均减少79.68%的无效状态空间,并让智能体获得正确的奖励信号,预计节能和智能体实际节能相比均值误差为1.99kWh,方差为0.91kWh。所提算法仅需要TD3算法15.26%的训练时间即可收敛,并与其他基线算法相比较,在时间误差为±0.1%并保证乘客舒适度时,相比PPO、DDPG、TD3、PMP算法分别能耗减少了1.29%,5.70%,1.69%,3.27%。研究结果可为进一步优化高速列车驾驶策略和保障高速列车安全运营提供有效参考。 展开更多
关键词 高速列车 分层次优化 深度强化学习 状态空间约束 奖励重塑
在线阅读 下载PDF
碳减排政策组合使用效能差异及提升策略 被引量:1
10
作者 杨霞 何刚 +1 位作者 张世玉 蒋怀印 《中国环境科学》 北大核心 2025年第3期1699-1712,共14页
采用演化博弈理论,根据碳交易碳税是否参与,设计四种碳减排政策工具使用情景.基于稳定性分析,阐释碳减排政策组合使用对企业碳减排的影响机理和作用机制,通过敏感性分析厘清博弈系统主要敏感性因素及影响方向.以全国碳交易市场建设案例... 采用演化博弈理论,根据碳交易碳税是否参与,设计四种碳减排政策工具使用情景.基于稳定性分析,阐释碳减排政策组合使用对企业碳减排的影响机理和作用机制,通过敏感性分析厘清博弈系统主要敏感性因素及影响方向.以全国碳交易市场建设案例为实证对象,仿真碳交易和混合碳政策使用情景博弈主体演化轨迹,识别关键因素对系统的影响程度,并提出动态递增税率和动态奖惩策略优化混合碳政策使用情景策略.研究发现:相较无碳交易无碳税、有碳交易无碳税、无碳交易有碳税情景,混合碳政策使用情景碳减排效能最佳;当前我国碳交易市场建设仍有待于加强,政企双方未达到(监管,碳减排)最优状态,成本和惩罚因素对博弈系统影响明显,补贴因素作用方向不确定;混合碳政策情景融入动态递增税率和动态奖惩策略,系统呈螺旋式上升,获得(监管,碳减排)稳定均衡点,其中动态补贴-动态惩罚为最佳奖惩策略. 展开更多
关键词 碳减排 政策组合 演化博弈 效能差异 动态奖惩
在线阅读 下载PDF
网络游戏诱导性奖励应该禁止吗?——以《网络游戏管理办法(草案征求意见稿)》第18条为中心 被引量:2
11
作者 张平华 董媛媛 《北京理工大学学报(社会科学版)》 北大核心 2025年第2期136-147,共12页
《网络游戏管理办法(草案征求意见稿)》第18条拟禁止诱导性奖励,这一做法并不妥当。网络游戏中的诱导性奖励主要包括以增加用户投入时间的使用奖励和增加经营者营收的消费奖励。诱导性奖励利用用户的有限理性,通过参与习惯养成、助推行... 《网络游戏管理办法(草案征求意见稿)》第18条拟禁止诱导性奖励,这一做法并不妥当。网络游戏中的诱导性奖励主要包括以增加用户投入时间的使用奖励和增加经营者营收的消费奖励。诱导性奖励利用用户的有限理性,通过参与习惯养成、助推行为转变、混淆消费评估,实现提高用户参与度、促成交易之目的。网游经营者享有营业自由权的范围包括自主设置奖励这一营业事项的自由。限制设置网游奖励属于法律保留事项。禁止诱导性奖励缺乏上位法依据,亦不满足行政手段限制权利的比例原则。网游界面的奖励规则和奖励内容是经营者向用户发出的要约,用户实施使用或消费行为构成承诺,两者间形成包含奖励的网络服务合同。奖励价值不得超过法定的有奖销售最高奖金额。经营者设置满足该前提的奖励不为竞争法所禁止,涉及此类奖励的合同亦不违反强制性规定和公序良俗。 展开更多
关键词 网络游戏 诱导性奖励 禁止性规定 营业自由 规制
在线阅读 下载PDF
政府奖惩机制下港口危化品储存安全监管博弈分析与仿真 被引量:2
12
作者 史俊伟 钱浙安 +1 位作者 叶雨晴 董潇 《安全与环境学报》 北大核心 2025年第3期1045-1056,共12页
为探究政府部门、港口与危化品企业利益相关者在危化品储存安全监管过程中的策略选择行为,基于演化博弈理论,引入静、动态奖惩机制,构建港口危化品储存安全监管的动态演化博弈模型,并对不同情景下各方策略选择行为及其演化过程进行仿真... 为探究政府部门、港口与危化品企业利益相关者在危化品储存安全监管过程中的策略选择行为,基于演化博弈理论,引入静、动态奖惩机制,构建港口危化品储存安全监管的动态演化博弈模型,并对不同情景下各方策略选择行为及其演化过程进行仿真。结果表明:当港口损失大于港口违规、合规储存收益差与港口新增储存成本之和时,系统可以达到理想稳定最优策略(弱监管,合规储存,合作);在静态奖惩机制下,政府激励、政府惩罚等对港口合规储存和危化品企业合作都是正向激励;在动态奖惩机制下,政府惩罚上限越高,港口和危化品企业选择合规运营的概率就越高,随着政府奖励上限逐渐增加,港口和危化品企业选择合规运营的概率反而呈降低趋势;降低港口的合规运营安全投入成本,建立严格准入制度和实施分类监管,对危化品企业的不安全合作行为有效约束,可实现港口危化品储存向高效安全监管方向的演化。 展开更多
关键词 安全社会工程 安全监管 奖惩机制 演化博弈 策略选择
在线阅读 下载PDF
基于深度强化学习的游戏智能引导算法 被引量:2
13
作者 白天 吕璐瑶 +1 位作者 李储 何加亮 《吉林大学学报(理学版)》 北大核心 2025年第1期91-98,共8页
针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输... 针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输入数据量;其次,通过精细化设计奖励机制,加速模型的收敛过程;最后,从主观定性和客观定量两方面对该算法模型与现有方法进行对比实验,实验结果表明,该算法不仅显著提高了模型的训练效率,还大幅度提高了智能体的性能. 展开更多
关键词 深度强化学习 游戏智能体 奖励函数塑形 近端策略优化算法
在线阅读 下载PDF
基于动态分层强化学习的知识图谱推理 被引量:1
14
作者 杨旭华 高良煜 《小型微型计算机系统》 北大核心 2025年第5期1081-1088,共8页
强化学习可以将知识图谱多跳推理建模成马尔科夫序列决策过程,提高预测实体的准确性和可解释性,是当前的研究热点.现有的强化知识推理任务经常涉及庞大的状态和动作空间,容易造成维度灾难,从而导致算法在解决复杂的动作选择问题时表现不... 强化学习可以将知识图谱多跳推理建模成马尔科夫序列决策过程,提高预测实体的准确性和可解释性,是当前的研究热点.现有的强化知识推理任务经常涉及庞大的状态和动作空间,容易造成维度灾难,从而导致算法在解决复杂的动作选择问题时表现不佳;同时大多数知识图谱存在不完整的问题,导致模型在推理时无法高效地搜索路径.为了应对上述挑战,本文提出一种基于动态分层强化学习的知识图谱推理模型,将知识推理分解成三级分层决策任务,每一级都有一个智能体从各自的动作空间中做出选择,从而降低了问题的复杂度.具体地,首先选择关系,其次选择与关系相连的预聚类的实体簇,最后采用动态选择机制从实体簇中选择相应的尾实体.此外,本文设计一个同时考虑答案准确性和路径合理性的的奖励重塑函数,指导智能体选择更为合理的路径,同时缓解奖励稀疏的问题.本文在3个基准数据集上将所提出的模型与7种知名推理方法进行比较,实验结果表明本文所提方法取得了非常具有竞争力的结果. 展开更多
关键词 知识图谱推理 动态分层强化学习 动态选择 奖励重塑
在线阅读 下载PDF
基于DR-DT的视觉SLAM参数自适应调整
15
作者 黄鑫 黄初华 +2 位作者 杨明旭 秦进 马旭博 《计算机应用研究》 北大核心 2025年第11期3512-3520,共9页
针对传统视觉SLAM系统依赖固定参数且需手动调整的问题,提出了一种基于离散化奖励Decision Transformer的自适应参数调整方法——DR-DT。该方法将参数自适应过程转换为序列建模任务,通过选择SLAM关键参数定义连续动作空间,基于位姿不确... 针对传统视觉SLAM系统依赖固定参数且需手动调整的问题,提出了一种基于离散化奖励Decision Transformer的自适应参数调整方法——DR-DT。该方法将参数自适应过程转换为序列建模任务,通过选择SLAM关键参数定义连续动作空间,基于位姿不确定性构建奖励函数,结合离散化奖励机制提升学习稳定性。以ORB-SLAM3为测试系统,在EuRoC MAV和TUM-VI数据集上的实验结果表明,所提方法能有效提升视觉SLAM系统在复杂场景中的位姿估计精度,同时简化了参数调整过程。该方法为视觉SLAM系统的参数自适应优化提供了新思路。 展开更多
关键词 视觉SLAM 参数自适应 Decision Transformer 连续动作空间 离散化奖励
在线阅读 下载PDF
奖励回溯DQN驱动的多QoS工业网络时隙调度方法
16
作者 梁炜 郑家桐 +1 位作者 张嘉麟 杨雨沱 《计算机应用研究》 北大核心 2025年第7期2141-2146,共6页
现有研究在多QoS(quality of service)调度问题中,由于仅依赖即时奖励反馈机制,在资源受限的场景下处理时延敏感数据和具有连续传输需求的媒体数据时,存在可扩展性差和资源浪费的问题。为此,提出了一种基于奖励回溯的DQN(reward backtra... 现有研究在多QoS(quality of service)调度问题中,由于仅依赖即时奖励反馈机制,在资源受限的场景下处理时延敏感数据和具有连续传输需求的媒体数据时,存在可扩展性差和资源浪费的问题。为此,提出了一种基于奖励回溯的DQN(reward backtracking based deep Q-network,RB-DQN)算法。该算法通过未来时刻的交互来回溯调整当前状态的策略评估,以更加有效地识别并解决因不合理调度策略导致的丢包。同时,设计了一种时延-吞吐均衡度量(latency throughput trade-off,LTT)指标,该指标综合考虑了时延敏感数据和媒体类型数据的业务需求,并可通过权重调整来突出不同的侧重点。大量仿真结果表明,与其他调度策略相比,所提算法能够有效降低时延敏感数据的延迟和抖动,同时确保媒体类型数据的流畅性与稳定性。 展开更多
关键词 时隙调度 深度强化学习 多QoS 奖励回溯
在线阅读 下载PDF
基于RGCAL-TD3的奖励引导保守优势学习路径规划方法
17
作者 王科平 李宏涛 +1 位作者 王田 杨艺 《计算机集成制造系统》 北大核心 2025年第10期3762-3772,共11页
针对现有基于深度强化学习的路径规划方法在动态场景中样本利用率低下的问题,在双延迟深度确定性策略梯度算法(TD3)基础上,提出一种奖励引导的保守优势学习方法(RGCAL)。首先,鉴于动态场景的部分可观测特性,将路径规划任务建模为部分可... 针对现有基于深度强化学习的路径规划方法在动态场景中样本利用率低下的问题,在双延迟深度确定性策略梯度算法(TD3)基础上,提出一种奖励引导的保守优势学习方法(RGCAL)。首先,鉴于动态场景的部分可观测特性,将路径规划任务建模为部分可观测马尔可夫决策过程。其次,将奖励引入到保守优势学习中,在此基础上重新定义了优势学习算子,并参与到TD误差的更新,从而根据回放经验中的奖励值增强对动作差距非线性的学习能力。最后,在Gazebo平台设计了多种动态实验场景,与主流深度强化学习算法进行对比实验。仿真实验结果表明,所提算法的样本利用率优于其他算法,在运行时间、移动步数以及导航成功率等指标上也具有整体优势。最后,在真实场景下进行了测试,进一步验证了所提算法的可行性和有效性。 展开更多
关键词 动态场景 路径规划 深度强化学习 奖励引导的保守优势学习 动作差距
在线阅读 下载PDF
基于双层激励的装备总承包议价激励定价方法
18
作者 訾书宇 杨青 陶国文 《海军工程大学学报》 北大核心 2025年第3期105-112,共8页
总承包议价是一种由总承包单位负责与配套设备单位协商议定配套设备采购价格的方法,一定程度上缓解了订购方的审价压力,且这种供需双方直接议价的方式,提高了价格工作效率。针对目前总承包议价缺乏激励措施的现状,提出在订购方与总承包... 总承包议价是一种由总承包单位负责与配套设备单位协商议定配套设备采购价格的方法,一定程度上缓解了订购方的审价压力,且这种供需双方直接议价的方式,提高了价格工作效率。针对目前总承包议价缺乏激励措施的现状,提出在订购方与总承包单位、总承包单位与配套设备单位双层关系上分别构建收益共享机制,给出了相应的机制设计原则,采用委托代理理论和激励合同定价方法,建立了新研产品和续购产品两大类3种激励定价模型,界定了不同定价模型的适用范围与情形,并结合算例验证了其有效性,为推动装备总承包议价制度落地见效提供了合同定价方面的解决方案。 展开更多
关键词 装备 奖惩机制 总承包议价 激励
在线阅读 下载PDF
赠品价格机制对用户推荐意愿的影响研究
19
作者 杨雪 庄雨 陈琬舟 《管理工程学报》 北大核心 2025年第3期58-70,共13页
社会化营销是企业或平台通过与用户之间的交谈、互动、反馈等方式,拉近其与消费者之间的心理距离,通过共情达到营销目的。其中起着重要作用的就是口碑效应。为了实现用户拉新,企业或平台常常采用推荐奖励计划的方式激励用户的推荐意愿... 社会化营销是企业或平台通过与用户之间的交谈、互动、反馈等方式,拉近其与消费者之间的心理距离,通过共情达到营销目的。其中起着重要作用的就是口碑效应。为了实现用户拉新,企业或平台常常采用推荐奖励计划的方式激励用户的推荐意愿。本文从社会交换理论视角切入,以某电商平台为研究背景进行模拟实验,探究在推荐奖励计划中,赠品的价格高低和不同价格机制(即价格高低组合)对用户推荐意愿的影响。结果表明:(1)设置赠品作为奖励会增强用户的推荐意愿;(2)相比于高价赠品,低价赠品更能增强用户的推荐意愿;(3)赠品的不同价格机制组合对用户推荐意愿的影响差异不显著,但对用户想获得赠品的内在意愿是存在影响的。本文具有一定的理论贡献与实践意义,在理论贡献维度上,本文的研究是对推荐奖励计划相关研究的补充和创新;在实践意义维度上,本文为企业或平台设计更有效的推荐奖励计划提供了一定的思路。 展开更多
关键词 社会化营销 推荐奖励计划 价格机制 推荐意愿
在线阅读 下载PDF
考虑信用度的网络货运平台与实际承运人价值共创演化博弈分析
20
作者 杨洋 马丹丹 刘子妮 《上海海事大学学报》 北大核心 2025年第1期96-103,共8页
针对当前网络货运中存在的实际承运人降低服务水平、不按时送达等影响价值共创水平的问题,建立以信用度为中心的奖惩机制。在对实际承运人信用度进行测算的基础上,对参与价值共创的网络货运平台和实际承运人的行为策略进行演化博弈分析... 针对当前网络货运中存在的实际承运人降低服务水平、不按时送达等影响价值共创水平的问题,建立以信用度为中心的奖惩机制。在对实际承运人信用度进行测算的基础上,对参与价值共创的网络货运平台和实际承运人的行为策略进行演化博弈分析,观察不同条件下博弈主体的演化稳定策略。结果表明,博弈双方的策略选择与实际承运人信用度、奖惩力度、协同收益水平、协同损失水平等紧密相关。基于分析结果,从信用管理、奖惩措施、价值共创三个方面对网络货运平台构建可持续的价值共创机制提出对策建议。 展开更多
关键词 平台经济 价值共创 信用度 奖惩机制 演化博弈
在线阅读 下载PDF
上一页 1 2 62 下一页 到第
使用帮助 返回顶部