期刊文献+
共找到1,275篇文章
< 1 2 64 >
每页显示 20 50 100
Variable reward function-driven strategies for impulsive orbital attack-defense games under multiple constraints and victory conditions
1
作者 Liran Zhao Sihan Xu +1 位作者 Qinbo Sun Zhaohui Dang 《Defence Technology(防务技术)》 2025年第9期159-183,共25页
This paper investigates impulsive orbital attack-defense(AD)games under multiple constraints and victory conditions,involving three spacecraft:attacker,target,and defender.In the AD scenario,the attacker aims to breac... This paper investigates impulsive orbital attack-defense(AD)games under multiple constraints and victory conditions,involving three spacecraft:attacker,target,and defender.In the AD scenario,the attacker aims to breach the defender's interception to rendezvous with the target,while the defender seeks to protect the target by blocking or actively pursuing the attacker.Four different maneuvering constraints and five potential game outcomes are incorporated to more accurately model AD game problems and increase complexity,thereby reducing the effectiveness of traditional methods such as differential games and game-tree searches.To address these challenges,this study proposes a multiagent deep reinforcement learning solution with variable reward functions.Two attack strategies,Direct attack(DA)and Bypass attack(BA),are developed for the attacker,each focusing on different mission priorities.Similarly,two defense strategies,Direct interdiction(DI)and Collinear interdiction(CI),are designed for the defender,each optimizing specific defensive actions through tailored reward functions.Each reward function incorporates both process rewards(e.g.,distance and angle)and outcome rewards,derived from physical principles and validated via geometric analysis.Extensive simulations of four strategy confrontations demonstrate average defensive success rates of 75%for DI vs.DA,40%for DI vs.BA,80%for CI vs.DA,and 70%for CI vs.BA.Results indicate that CI outperforms DI for defenders,while BA outperforms DA for attackers.Moreover,defenders achieve their objectives more effectively under identical maneuvering capabilities.Trajectory evolution analyses further illustrate the effectiveness of the proposed variable reward function-driven strategies.These strategies and analyses offer valuable guidance for practical orbital defense scenarios and lay a foundation for future multi-agent game research. 展开更多
关键词 Orbital attack-defense game Impulsive maneuver Multi-agent deep reinforcement learning reward function design
在线阅读 下载PDF
Choice of discount rate in reinforcement learning with long-delay rewards 被引量:1
2
作者 LIN Xiangyang XING Qinghua LIU Fuxian 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2022年第2期381-392,共12页
In the world, most of the successes are results of longterm efforts. The reward of success is extremely high, but before that, a long-term investment process is required. People who are “myopic” only value short-ter... In the world, most of the successes are results of longterm efforts. The reward of success is extremely high, but before that, a long-term investment process is required. People who are “myopic” only value short-term rewards and are unwilling to make early-stage investments, so they hardly get the ultimate success and the corresponding high rewards. Similarly, for a reinforcement learning(RL) model with long-delay rewards, the discount rate determines the strength of agent’s “farsightedness”.In order to enable the trained agent to make a chain of correct choices and succeed finally, the feasible region of the discount rate is obtained through mathematical derivation in this paper firstly. It satisfies the “farsightedness” requirement of agent. Afterwards, in order to avoid the complicated problem of solving implicit equations in the process of choosing feasible solutions,a simple method is explored and verified by theoreti cal demonstration and mathematical experiments. Then, a series of RL experiments are designed and implemented to verify the validity of theory. Finally, the model is extended from the finite process to the infinite process. The validity of the extended model is verified by theories and experiments. The whole research not only reveals the significance of the discount rate, but also provides a theoretical basis as well as a practical method for the choice of discount rate in future researches. 展开更多
关键词 reinforcement learning(RL) discount rate longdelay reward Q-LEARNING treasure-detecting model feasible solution
在线阅读 下载PDF
Tactical reward shaping for large-scale combat by multi-agent reinforcement learning 被引量:1
3
作者 DUO Nanxun WANG Qinzhao +1 位作者 LYU Qiang WANG Wei 《Journal of Systems Engineering and Electronics》 CSCD 2024年第6期1516-1529,共14页
Future unmanned battles desperately require intelli-gent combat policies,and multi-agent reinforcement learning offers a promising solution.However,due to the complexity of combat operations and large size of the comb... Future unmanned battles desperately require intelli-gent combat policies,and multi-agent reinforcement learning offers a promising solution.However,due to the complexity of combat operations and large size of the combat group,this task suffers from credit assignment problem more than other rein-forcement learning tasks.This study uses reward shaping to relieve the credit assignment problem and improve policy train-ing for the new generation of large-scale unmanned combat operations.We first prove that multiple reward shaping func-tions would not change the Nash Equilibrium in stochastic games,providing theoretical support for their use.According to the characteristics of combat operations,we propose tactical reward shaping(TRS)that comprises maneuver shaping advice and threat assessment-based attack shaping advice.Then,we investigate the effects of different types and combinations of shaping advice on combat policies through experiments.The results show that TRS improves both the efficiency and attack accuracy of combat policies,with the combination of maneuver reward shaping advice and ally-focused attack shaping advice achieving the best performance compared with that of the base-line strategy. 展开更多
关键词 deep reinforcement learning multi-agent reinforce-ment learning multi-agent combat unmanned battle reward shaping
在线阅读 下载PDF
Role of prefrontal cortex-nucleus accumbens glutamatergic projection in heroin reward and motivation
4
作者 ZHU Hua-qiang LAI Miao-jun +5 位作者 XU Wen-jin ZHUANG Ding-ding FU Dan HONG Qing-xiao LIU Hui-fen ZHOU Wen-hua 《中国药理学与毒理学杂志》 CAS CSCD 北大核心 2018年第9期725-726,共2页
OBJECTIVE Glutamatergic projections from prefrontal cortex(PFc) to nucleus accumbens(NAc) regulate the dopamine(DA) release in NAc.However,it is not clear whether this circuit is effective for the reward and motivatio... OBJECTIVE Glutamatergic projections from prefrontal cortex(PFc) to nucleus accumbens(NAc) regulate the dopamine(DA) release in NAc.However,it is not clear whether this circuit is effective for the reward and motivation of heroin addiction.Our study investigates the effects of metabotropic glutamate receptor 2/3(mGluR2/3) and the projections from ventromedial prefrontal cortex(vmPFc) to the NAc shell on the reward and motivation of heroin-addicted rats.METHODS First,rats were trained to selfadministration for 14 d.On the 15 thday,parts of rats were injected with mGluR 2/3 agonist LY379268(0.1,0.3 and 1.0 mg·kg-1,ip) systematically and another parts of rats were bilaterally microinjected with LY379268(0.3 and 1.0 g·L^(-1))at the volume of 0.5 μL into the ventral tegmental area(VTA),NAc core or NAc shell,respectively.All rats were followed by heroin self-administration testing under fixed ratio 1(FR1) schedule or progressed ratio(PR) schedule to observe the effect of LY379268 on the heroin reward or motivation.Second,rats were injected chemogenetic glutamatergic virus(pAAV-CaMKIIa-hM3 D(Gq)-mCherry or pAOV-CaMKIIa-hM4 D(Gi)-mCherry-3 Flag) or negative control virus in vmPFc,and trained to heroin self-administration for 14 d.On the 15 thday,rats were bilateral y microinjected with clozapine-N-oxide(CNO,1 mmol·L^(-1),0.5 μL) into NAc shell and tested the effect on the heroin reward or motivation.Finally,rats were injected optogenetical glutamatergic virus(AAV2/9-CaM KⅡ-hChR2-EYFP) or negative control virus in vmPFc,implanted 16 channel photoelectrode in ipsilateral NAc shell,and trained to heroin selfadministration for 14 d.On the 15 thday,rats were tested heroin reward under FR1 procedure with blue light stimulation in the wavelength of470 nm,frequency of 25 HZ and power of 5 mW.Each stimulation lasting for 1 h and interval for1 h.The spike changes before and after stimulation in NAc Shel neural nerve was recorded.RESULTS LY379268 cloud dose-dependent attenuated the heroin reward or motivation and the local effective site was mainly in the NAc shell.Chemogenetic results showed activation or inactivation the projection from vmPFc to NAc shell enhanced or attenuated the heroin reward and motivation,respectively.Optogenetical stimulation the same projection also enhanced the heroin reward,and a tonic neuronal firing at the nerve of NAc shell was observed during the light stimulation session.CONCLUSION mGluR2/3 activation in the NAc shell is involved in the inhibition of heroin reward and motivation.Activation the projection from PFc to NAc shell can enhance the effects on heroin reward and motivation. 展开更多
关键词 HEROIN ventromedial prefrontal cortex nucleus ACCUMBENS METABOTROPIC glutamatereceptor 2/3 reward MOTIVATION
在线阅读 下载PDF
Time Series Analysis of Wheat Futures Reward in China
5
作者 WEI Hui-hui 《Journal of Northeast Agricultural University(English Edition)》 CAS 2005年第2期177-181,共5页
Different from the fact that the main researches are focused on single futures contract and lack of the comparison of different periods, this paper described the statistical characteristics of wheat futures reward tim... Different from the fact that the main researches are focused on single futures contract and lack of the comparison of different periods, this paper described the statistical characteristics of wheat futures reward time series of Zhengzhou Commodity Exchange in recent three years. Besides the basic statistic analysis, the paper used the GARCH and EGARCH model to describe the time series which had the ARCH effect and analyzed the persistence of volatility shocks and the leverage effect. The results showed that compared with that of normal one,wheat futures reward series were abnormality, leptokurtic and thick tail distribution. The study also found that two-part of the reward series had no autocorrelation. Among the six correlative series, three ones presented the ARCH effect. By using of the Auto-regressive Distributed Lag Model, GARCH model and EGARCH model, the paper demonstrates the persistence of volatility shocks and the leverage effect on the wheat futures reward time series. The results reveal that on the one hand, the statistical characteristics of the wheat futures reward are similar to the aboard mature futures market as a whole. But on the other hand, the results reflect some shortages such as the immatureness and the over-control by the government in the Chinese future market. 展开更多
关键词 futures reward thick tail GARCH EGARCH
在线阅读 下载PDF
Evolutionary analysis of green credit and automobile enterprises under the mechanism of dynamic reward and punishment based on government regulation
6
作者 Yu Dong Xiaoyu Huang +1 位作者 Hongan Gan Xuyang Liu 《中国科学技术大学学报》 CAS CSCD 北大核心 2024年第5期49-62,I0007,共15页
To explore the green development of automobile enterprises and promote the achievement of the“dual carbon”target,based on the bounded rationality assumptions,this study constructed a tripartite evolutionary game mod... To explore the green development of automobile enterprises and promote the achievement of the“dual carbon”target,based on the bounded rationality assumptions,this study constructed a tripartite evolutionary game model of gov-ernment,commercial banks,and automobile enterprises;introduced a dynamic reward and punishment mechanism;and analyzed the development process of the three parties’strategic behavior under the static and dynamic reward and punish-ment mechanism.Vensim PLE was used for numerical simulation analysis.Our results indicate that the system could not reach a stable state under the static reward and punishment mechanism.A dynamic reward and punishment mechanism can effectively improve the system stability and better fit real situations.Under the dynamic reward and punishment mechan-ism,an increase in the initial probabilities of the three parties can promote the system stability,and the government can im-plement effective supervision by adjusting the upper limit of the reward and punishment intensity.Finally,the implementa-tion of green credit by commercial banks plays a significant role in promoting the green development of automobile enter-prises. 展开更多
关键词 automobile enterprises green credit system dynamics reward and punishment mechanism
在线阅读 下载PDF
回报承诺类型对投资者决策质心的影响:基于众筹项目的实证研究
7
作者 王伟 刘海王 +2 位作者 郭丽环 衣长军 王洪伟 《管理工程学报》 北大核心 2026年第2期150-165,共16页
为了探索众筹项目回报承诺类型对投资者决策的影响机制,基于期望理论,本研究引入工程学中的质心概念量化群体参与意愿水平。本研究采用LDA与SBERT相结合的文本挖掘模型,将回报承诺类型划分为功利价值型和情感价值型,前者注重实用性与功... 为了探索众筹项目回报承诺类型对投资者决策的影响机制,基于期望理论,本研究引入工程学中的质心概念量化群体参与意愿水平。本研究采用LDA与SBERT相结合的文本挖掘模型,将回报承诺类型划分为功利价值型和情感价值型,前者注重实用性与功能性,包括实物型和虚拟型两类;而后者关注用户体验,包括服务型和参与型两类。本研究以Kickstarter平台上的9166个项目及其41496个回报承诺选项作为研究数据。实证结果表明:(1)回报承诺选项数量和回报承诺类型数量对投资者决策质心具有正向影响;(2)从回报效用角度看,提供功利价值回报比提供情感价值回报对投资者的正向影响更强;(3)从细粒度分析结果上看,实物型回报的积极作用最强,服务型回报的消极作用最强;(4)融资者国籍和回报描述文本详细度分别影响投资者的期望值和工具性,二者在回报承诺和决策质心之间具有正向调节作用。本研究完善了对基于回报的众筹模式的期望理论研究,为融资者以及众筹平台设计和优化众筹回报模式以提升融资绩效提供了理论依据和实践参考。 展开更多
关键词 众筹项目 回报承诺 期望理论 质心 文本挖掘
在线阅读 下载PDF
草原补奖政策背景下生计资本对牧户兼业行为的影响
8
作者 乌云花 王军民 +1 位作者 句芳 黄霞 《中国草地学报》 北大核心 2026年第3期122-138,共17页
草原补奖政策是保护草原生态和牧户生计安全的重大措施,但现有研究较多关注其对牧户生计的影响,鲜有研究在补奖政策视域下基于生计资本水平和结构的双重视角分析牧户兼业行为的影响机制。基于内蒙古牧区1042份牧户问卷数据,采用熵值法... 草原补奖政策是保护草原生态和牧户生计安全的重大措施,但现有研究较多关注其对牧户生计的影响,鲜有研究在补奖政策视域下基于生计资本水平和结构的双重视角分析牧户兼业行为的影响机制。基于内蒙古牧区1042份牧户问卷数据,采用熵值法测算牧户生计资本,并运用Logistic回归模型实证检验生计资本总量、分维水平、结构对牧户兼业行为的影响机理。结果表明:(1)生计资本水平与结构皆会对牧户兼业行为产生显著影响。(2)在水平分析中,生计资本总量的提高会促进牧户兼业;分维水平的人力资本会促进牧户兼业,自然资本、物质资本、社会资本则会抑制牧户兼业。(3)在结构分析中,人力资本占优型会促进牧户兼业。(4)异质性分析结果显示:相较于半农半牧区,生计资本对促进纯牧区牧户兼业行为的影响更为显著;相较于老一代牧户,生计资本对促进新生代牧户兼业行为的影响更为显著,而对抑制中生代牧户兼业行为的影响更为显著;且相较于二兼牧户,生计资本对一兼牧户兼业行为的影响更为显著。 展开更多
关键词 草原补奖政策 牧户 兼业行为 生计资本 生计资本结构 耦合
在线阅读 下载PDF
考虑气热动态特性的P2G-CCS综合能源优化调度
9
作者 张涛 王金 +3 位作者 孟衡 刘文丽 司诚真 熊鸣之 《太阳能学报》 北大核心 2026年第1期253-262,共10页
提出考虑气热动态特性的电转气-碳捕集(P2G-CCS)综合能源调度策略。首先,将气热能流特性方程转化至s域,得到二端口传递函数模型,利用卷积定理对其进行Laplace逆变换,从而得到任意时间断面的时域动态模型。其次,在动态模型基础上建立包含... 提出考虑气热动态特性的电转气-碳捕集(P2G-CCS)综合能源调度策略。首先,将气热能流特性方程转化至s域,得到二端口传递函数模型,利用卷积定理对其进行Laplace逆变换,从而得到任意时间断面的时域动态模型。其次,在动态模型基础上建立包含P2G-CCS的IES园区,结合碳交易机制减少碳排放。最后以IEEE-39-20-6为例,建立电-气-热能源系统,通过设置不同调度场景进行对比分析。结果表明,所建动态模型和策略有效提高气热网潮流计算效率的同时,降低碳排放,提高系统调度经济性。 展开更多
关键词 综合能源 P2G-CCS 奖惩阶梯碳交易 气热s域模型
在线阅读 下载PDF
DDPG优化算法的改进型自抗扰风电机组桨距角控制
10
作者 徐晓宁 范召强 +3 位作者 周雪松 陶珑 问虎龙 杨风霞 《太阳能学报》 北大核心 2026年第1期575-584,共10页
为解决传统风电机组桨距角控制策略面对风速变化时存在动态响应差以及控制器参数适应性不足导致输出功率波动大的问题,提出一种基于深度确定性策略梯度(DDPG)算法的改进型线性自抗扰桨距角控制策略。该策略在线性扩张状态观测器(LESO)... 为解决传统风电机组桨距角控制策略面对风速变化时存在动态响应差以及控制器参数适应性不足导致输出功率波动大的问题,提出一种基于深度确定性策略梯度(DDPG)算法的改进型线性自抗扰桨距角控制策略。该策略在线性扩张状态观测器(LESO)基础上引入自由扩张维度的状态变量,并对增阶后的参数基于比例微分形式进行改进,以提高对扰动的顺馈矫正能力。随后根据发电机转速误差设计合适的奖励函数,利用DDPG算法使改进后的线性自抗扰控制(LADRC)参数能够自适应调整,实现最优的控制效果。仿真结果表明,所提策略能有效应对风速剧烈波动,使桨距角能快速适应风速变化,从而维持风电机组的稳定运行和电能的高效输出。 展开更多
关键词 风电机组 桨距角 线性自抗扰控制 深度确定性策略梯度 奖励函数 参数整定
在线阅读 下载PDF
基于SAC3Q-HDM的强化学习机器人路径规划
11
作者 李德权 熊婉 《系统仿真学报》 北大核心 2026年第3期714-724,共11页
针对强化学习在路径规划中存在的高估和低估偏差、样本利用率低、无法平衡探索和利用等问题,提出一种改进型SAC方法。通过自适应温度系数调节熵的大小平衡探索与利用;在SAC框架基础上引入三重Critic架构,通过Q值不确定性动态加权融合最... 针对强化学习在路径规划中存在的高估和低估偏差、样本利用率低、无法平衡探索和利用等问题,提出一种改进型SAC方法。通过自适应温度系数调节熵的大小平衡探索与利用;在SAC框架基础上引入三重Critic架构,通过Q值不确定性动态加权融合最小值与平均值,平衡高估和低估偏差;设计混合动态采样经验回放缓冲区,根据奖励阈值划分经验数据,动态调整采样比例,实现从核心策略到全面泛化的渐进式学习;设计层次化启发式奖励函数,引导机器人在任务中平衡目标趋近、障碍规避的多目标需求。仿真实验结果表明:改进后的算法在路径长度、规划时间和成功率等方面具有明显优势,提升了路径规划的效率和鲁棒性。 展开更多
关键词 强化学习 路径规划 SAC 混合动态采样 层次化启发式奖励函数
在线阅读 下载PDF
政府奖惩机制下的中欧班列协同发展模型
12
作者 李成兵 宋雅文 +1 位作者 王佳琳 安旭鹏 《西南交通大学学报》 北大核心 2026年第1期275-286,共12页
为减少中欧班列运营商竞相低价揽货、抢夺货源现象的发生,基于地方政府对中欧班列运营商和中欧班列供货商的补贴,并结合中欧班列运营过程中实际情况,构建政府奖惩机制下的“政府-运营商-供货商”非对称性三方演化博弈模型;在此基础上,... 为减少中欧班列运营商竞相低价揽货、抢夺货源现象的发生,基于地方政府对中欧班列运营商和中欧班列供货商的补贴,并结合中欧班列运营过程中实际情况,构建政府奖惩机制下的“政府-运营商-供货商”非对称性三方演化博弈模型;在此基础上,通过数值仿真分析政府补贴、惩罚等主要因素对系统演化稳定策略的影响,并据此为中欧班列协同发展提供理论参考.研究结果表明:政府增大惩罚力度将有效推动运营商和供货商的协同发展;根据运营商和供货商的不同策略实行差额补贴,不同补贴力度之间的差值越大越有益于协同;合理设置政府提供给运营商的单位集装箱最大补贴额,并视情况逐渐减小额度直至补贴完全退出,是促进协同的有效途径;政府的额外社会效益是决定政府策略选择的正向影响因素. 展开更多
关键词 奖惩机制 中欧班列 协同发展 演化博弈论 价格竞争
在线阅读 下载PDF
内外奖励和情境线索稳定性对志愿服务行为习惯的交互影响
13
作者 屈国梁 鞠恩霞 +2 位作者 薛一宁 陈煦海 罗扬眉 《心理学报》 北大核心 2026年第3期534-557,I0030-I0036,共31页
志愿服务对于社会治理具有重要价值。以往研究强调通过增强动机或角色认同去促进志愿服务参与,却忽视了习惯在志愿服务行为中的作用。并且,内外奖励和情境线索稳定性与志愿服务行为习惯之间的关系机制尚不清楚。因此,采用深度访谈和问... 志愿服务对于社会治理具有重要价值。以往研究强调通过增强动机或角色认同去促进志愿服务参与,却忽视了习惯在志愿服务行为中的作用。并且,内外奖励和情境线索稳定性与志愿服务行为习惯之间的关系机制尚不清楚。因此,采用深度访谈和问卷调查,设计3个子研究,探讨内外奖励和情境线索稳定性对志愿服务行为习惯的影响。结果发现,内在奖励(包括意义感、快乐感和自我价值感)、外在奖励(包括荣誉奖励、物质奖励和社会支持与认可)和情境线索稳定性(包括时间、地点、活动类型、人际和情绪状态稳定性)显著正向预测志愿服务行为习惯;内外奖励与情境线索稳定性对志愿服务行为习惯具有交互效应,即当情境线索稳定性更低时,内在或外在奖励对志愿服务行为习惯的正向预测作用更强。这表明,内外奖励和情境线索稳定性是志愿服务行为习惯的重要促进因素且交互影响着志愿服务行为习惯。 展开更多
关键词 志愿服务行为习惯 内在奖励 外在奖励 情境线索稳定性 志愿者
在线阅读 下载PDF
急性疼痛对个人与替代奖赏加工的调控效应:来自ERP的证据
14
作者 刘沛菡 彭微微 +2 位作者 王金霞 李红 雷怡 《心理学报》 北大核心 2026年第1期15-38,共24页
疼痛和奖赏是调节人类感知和行为的两个基本激励因素,其交互机制对理解动机决策具有重要价值。本研究采用改良版金钱激励延迟任务(Monetary Incentive Delay Task, MID),结合事件相关电位(Event-related potential,ERP)技术,考察健康个... 疼痛和奖赏是调节人类感知和行为的两个基本激励因素,其交互机制对理解动机决策具有重要价值。本研究采用改良版金钱激励延迟任务(Monetary Incentive Delay Task, MID),结合事件相关电位(Event-related potential,ERP)技术,考察健康个体在急性疼痛影响下的奖赏加工动态特征,重点关注对个人奖赏(自我导向)和替代奖赏(他人导向)加工的阶段性调节效应。行为结果显示,疼痛增强了个体在预期阶段的奖赏动机,表现为更快的反应时和更多的按键次数,且该效应随奖赏价值提升呈线性增长。ERP结果显示,在奖赏预期阶段,疼痛组诱发更大的cue-P2与cue-P3波幅,提示其对奖赏线索的情绪加工和对替代奖赏的注意增强;而在奖赏体验阶段,疼痛组在替代奖赏条件下表现出更大的FRN和P3波幅,表明其对社会性奖赏结果反馈的神经响应增强。上述结果共同表明,疼痛对奖赏加工的影响存在阶段性差异:在动机层面表现为一致增强,而在情绪体验和神经反应层面则更显著地影响替代奖赏。本研究更加全面深入地探讨了疼痛和奖赏二者相互作用的原因和机制,进一步说明疼痛对奖赏系统的调控具有“动机趋同-体验分离”的双重特性。 展开更多
关键词 急性疼痛 金钱奖赏 个人奖赏 替代奖赏 奖赏预期阶段 奖赏体验阶段 ERP
在线阅读 下载PDF
基于可解释性机器学习的儿科护士付出-回报失衡风险预测模型的构建
15
作者 陈正菊 张秀梅 邵鹏 《护理研究》 北大核心 2026年第8期1289-1297,共9页
目的:基于可解释性机器学习构建儿科护士付出-回报失衡的风险预测模型,比较不同模型的预测性能,并采用SHAP对最优模型结果进行解释。方法:采用便利抽样法,于2025年6月选取安徽省、山西省、江西省、湖南省6所医院儿科护士414人作为研究对... 目的:基于可解释性机器学习构建儿科护士付出-回报失衡的风险预测模型,比较不同模型的预测性能,并采用SHAP对最优模型结果进行解释。方法:采用便利抽样法,于2025年6月选取安徽省、山西省、江西省、湖南省6所医院儿科护士414人作为研究对象,按照7:3随机分为训练集和验证集。采用护士压力量表、付出-回报失衡量表进行调查。采用LASSO回归对特征变量进行筛选,得出重要预测因子。将重要预测因子纳入机器学习中,构建儿科护士付出-回报失衡的Logistic回归模型、极端梯度提升模型、随机森林模型3种风险预测模型,比较模型的受试者工作特征曲线下面积(AUC)、准确度、灵敏度、F1分数,评价模型的预测性能,筛选最优模型,采用SHAP对最优模型进行解释。结果:LASSO回归筛选出每个月夜班数、工作量与时间分配、学历3个重要因子。Logistic回归模型、极端梯度提升模型、随机森林模型3种预测模型的AUC分别是0.725,0.890,0.903,准确度为0.673,0.794,0.801,灵敏度为0.421,0.731,0.813,F1分数为0.547,0.773,0.798。SHAP结果显示影响因素重要性排序为每个月夜班数、护士工作量与时间分配、学历。结论:通过随机森林构建的儿科护士付出-回报失衡风险预测模型性能优于Logistic回归、极端梯度提升模型。应根据护士每个月夜班数、工作量与时间分配、学历进行个性化预测,为其付出-回报失衡的早期识别、制定个性化干预措施提供参考。 展开更多
关键词 儿科护士 付出-回报失衡 机器学习 LASSO回归分析 影响因素
在线阅读 下载PDF
流奖赏引导的基于模型学习的策略优化方法
16
作者 王义 钟珊 龚声蓉 《计算机工程与设计》 北大核心 2026年第2期528-535,共8页
针对基于模型的强化学习中模型误差累积与探索效率低下的问题,提出耦合标准化流的动态奖励优化方法。通过构建双流网络区分真实环境与模型生成分布,利用分布差异动态重构奖励函数:训练阶段最小化差异提升预测精度,策略在线交互阶段根据... 针对基于模型的强化学习中模型误差累积与探索效率低下的问题,提出耦合标准化流的动态奖励优化方法。通过构建双流网络区分真实环境与模型生成分布,利用分布差异动态重构奖励函数:训练阶段最小化差异提升预测精度,策略在线交互阶段根据差异强度自适应调节探索范围。该方法突破传统静态奖励机制限制,在连续控制任务中有效抑制多步预测误差传播,显著提升样本效率与累积回报,同时增强策略收敛稳定性,为开放环境中的智能体学习提供新范式。 展开更多
关键词 强化学习 模型学习 策略优化 标准化流 样本效率 奖赏函数 探索与利用
在线阅读 下载PDF
基于正负激励模型的无功管理模式研究
17
作者 崔昌涛 潘婷 +3 位作者 杨国娜 曾鸣 董厚琦 张晓春 《华北电力大学学报(自然科学版)》 北大核心 2026年第1期106-115,共10页
随着新能源发电在配电网中接入比例不断升高,无功补偿技术对电力系统运行维护起到积极促进的作用。为了进一步提高电力输送的安全性和可靠性,提出一种基于正负激励的奖惩力度模型的无功补偿方案,通过盈亏平衡分析法分析现行考核标准的问... 随着新能源发电在配电网中接入比例不断升高,无功补偿技术对电力系统运行维护起到积极促进的作用。为了进一步提高电力输送的安全性和可靠性,提出一种基于正负激励的奖惩力度模型的无功补偿方案,通过盈亏平衡分析法分析现行考核标准的问题,并引入正负激励模型来提高用户侧参与无功补偿的积极性,进一步通过盈亏平衡分析来制定奖惩力度模型来解决力调电费奖惩力度不足、电网侧和用户侧一方在无功补偿的过程中负担过重的问题,最后通过算例验证了所提模型的有效性。 展开更多
关键词 无功补偿 正负激励模型 盈亏平衡分析 奖惩力度
在线阅读 下载PDF
基于SAC改进的机器人路径规划算法
18
作者 姚博远 黄志勇 《计算机工程与设计》 北大核心 2026年第2期327-335,共9页
为了提升机器人在未知动态环境下的路径规划能力,提出了一种基于强化学习的路径规划算法PMS-SAC,在SAC算法基础上,以加权优先采样取代均匀采样,并以多步回报替代单步奖励,从而提升样本效率并加快收敛。将路径规划任务建模为马尔可夫决... 为了提升机器人在未知动态环境下的路径规划能力,提出了一种基于强化学习的路径规划算法PMS-SAC,在SAC算法基础上,以加权优先采样取代均匀采样,并以多步回报替代单步奖励,从而提升样本效率并加快收敛。将路径规划任务建模为马尔可夫决策过程,引入辅助奖励函数优化奖励分布。PMS-SAC算法提升了样本使用效率,缩短了训练时间,加快了收敛速度,缓解了稀疏奖励问题。在ROS和Gazebo平台进行了仿真,实验结果表明,与SAC算法相比,PMSSAC算法最大成功率提升达到了15.8%,平均收敛轮次减少了175轮。 展开更多
关键词 机器人 路径规划 强化学习 经验回放 多步学习 奖励函数 稀疏奖励
在线阅读 下载PDF
时间vs.金钱:忠诚计划中的顾客资源投入和奖励策略设计
19
作者 彭紫荆 寿志钢 +1 位作者 滕洪信 周凌静 《南开管理评论》 北大核心 2026年第1期136-147,共12页
移动互联时代,顾客常利用碎片化时间观看直播、浏览网页和购买商品,开展忠诚计划的企业越来越倾向于争夺顾客的时间份额。但现有文献大多聚焦金钱投入型忠诚计划,对时间投入型忠诚计划的奖励策略缺乏探讨。本研究基于解释水平理论,分析... 移动互联时代,顾客常利用碎片化时间观看直播、浏览网页和购买商品,开展忠诚计划的企业越来越倾向于争夺顾客的时间份额。但现有文献大多聚焦金钱投入型忠诚计划,对时间投入型忠诚计划的奖励策略缺乏探讨。本研究基于解释水平理论,分析了忠诚计划的资源投入(金钱vs.时间)与顾客奖励策略(奖励时点或奖品类型)的匹配效应。四项情景模拟实验的结果表明:当企业需要顾客投入金钱资源时,近期(vs.远期)奖励或硬性(vs.软性)奖品更能增强顾客的自我效能,从而提升其参与忠诚计划的意愿。当需要顾客投入时间资源时,远期(vs.近期)奖励或软性(vs.硬性)奖品更能增强顾客的自我效能,从而提升其参与忠诚计划的意愿。 展开更多
关键词 忠诚计划 金钱/时间投入 奖励策略 解释水平理论
在线阅读 下载PDF
公立医院临床医师付出-回报失衡对职业韧性的影响——基于组织支持感的中介效应分析
20
作者 张梓洵 代高岚歆 +2 位作者 卓丽军 边颖 陶红兵 《中国医院管理》 北大核心 2026年第3期78-82,共5页
目的调查公立医院临床医师付出-回报失衡、职业韧性及组织支持感的现状,分析临床医师付出-回报失衡对职业韧性的影响效应,并探讨组织支持感在两者间的中介作用。方法选取湖北省5家二、三级公立医院的660名临床医师作为调查对象,采用一... 目的调查公立医院临床医师付出-回报失衡、职业韧性及组织支持感的现状,分析临床医师付出-回报失衡对职业韧性的影响效应,并探讨组织支持感在两者间的中介作用。方法选取湖北省5家二、三级公立医院的660名临床医师作为调查对象,采用一般资料问卷、付出-回报失衡量表、组织支持感量表、职业韧性量表进行调查。采用SPSS宏PROCESS程序插件对数据进行分析检验。结果付出-回报失衡对临床医师职业韧性具有负向影响(β=-0.076,P<0.05),组织支持感在付出-回报失衡对认知韧性(β=-0.039,P>0.05)和行为韧性(β=-0.049,P>0.05)的影响方面起完全中介作用,而在付出-回报失衡对情感韧性的影响方面发挥部分中介作用(β=-0.137,P<0.001)。结论组织支持是公立医院临床医师付出-回报失衡与职业韧性的中介变量,医院管理者可通过减轻医生负荷、提升获得感以及多维度建立支持体系来降低临床医师付出-回报失衡并提升职业韧性。 展开更多
关键词 付出-回报失衡 组织支持感 职业韧性 中介效应
在线阅读 下载PDF
上一页 1 2 64 下一页 到第
使用帮助 返回顶部