期刊文献+
共找到26篇文章
< 1 2 >
每页显示 20 50 100
基于输出反馈逆强化Q学习的线性二次型最优控制方法
1
作者 刘文 范家璐 薛文倩 《控制理论与应用》 EI CAS CSCD 北大核心 2024年第8期1469-1479,共11页
本文针对模型参数未知且状态不可测的线性离散系统的线性二次型最优控制问题,提出了一种数据驱动的基于输出反馈逆强化Q学习的最优控制方法,利用系统的输入输出数据同时确定合适的二次型性能指标权重和最优控制律,使得系统运行轨迹与参... 本文针对模型参数未知且状态不可测的线性离散系统的线性二次型最优控制问题,提出了一种数据驱动的基于输出反馈逆强化Q学习的最优控制方法,利用系统的输入输出数据同时确定合适的二次型性能指标权重和最优控制律,使得系统运行轨迹与参考轨迹一致.本文首先提出一个参数矫正方程并与逆最优控制相结合得到一种基于模型的逆强化学习最优控制框架,实现输出反馈控制律参数和性能指标加权项的矫正.在此基础上,本文引入强化Q学习思想提出了数据驱动的输出反馈逆强化Q学习最优控制方法,无需知道系统模型参数,仅利用历史输入输出数据对输出反馈控制律参数和性能指标加权项进行求解.理论分析与仿真实验验证了所提方法的有效性. 展开更多
关键词 强化学习 Q学习 输出反馈 数据驱动最优控制
在线阅读 下载PDF
反馈负波的强化学习和情绪/动机的分离 被引量:1
2
作者 刘春雷 贾磊 +1 位作者 高树玲 张庆林 《西南大学学报(自然科学版)》 CAS CSCD 北大核心 2010年第2期151-155,共5页
反馈负波(FRN)是由代表行为错误或失去金钱等负性反馈刺激诱发的一种脑电波成分,出现在刺激呈现后250~300 ms左右,偶极子源定位发现这一成分产生于前扣带回附近.实验采用事件相关电位方法,以图形作为实验材料,采用联结学习——联结反... 反馈负波(FRN)是由代表行为错误或失去金钱等负性反馈刺激诱发的一种脑电波成分,出现在刺激呈现后250~300 ms左右,偶极子源定位发现这一成分产生于前扣带回附近.实验采用事件相关电位方法,以图形作为实验材料,采用联结学习——联结反转两阶段任务,考察了预期一致和预期不一致对FRN的影响.结果发现:与预期一致时,正性反馈诱发了更负的FRN,溯源分析显示,差异可能源于后扣带回区;与预期不一致时,负性反馈诱发了更负的FRN,溯源分析显示,差异可能源于前扣带回区.上述结果表明,与预期一致时FRN可能反映了情绪/动机过程,与预期不一致时FRN可能反映了强化学习过程. 展开更多
关键词 反馈负波 事件相关电位 强化学习 情绪/动机
在线阅读 下载PDF
基于参考模型的输出反馈强化学习控制 被引量:1
3
作者 郝钏钏 方舟 李平 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2013年第3期409-414,479,共7页
现有的直接策略搜索强化学习控制算法大多是状态完全可观对象设计状态反馈控制策略,其适用的对象范围十分有限.为此,提出一种适用范围更广的模型参考输出反馈强化学习控制算法,其学习过程仅依赖对象输出,并可以获得使闭环系统具有期望... 现有的直接策略搜索强化学习控制算法大多是状态完全可观对象设计状态反馈控制策略,其适用的对象范围十分有限.为此,提出一种适用范围更广的模型参考输出反馈强化学习控制算法,其学习过程仅依赖对象输出,并可以获得使闭环系统具有期望动态性能的输出反馈控制策略.算法构造了以参考模型为基础的回报函数,可以有效地描述系统的期望闭环动态性能;采用以PID输出反馈控制律为基础的参数化随机控制策略,以便于利用先验知识、依据控制领域常用的PID参数经验整定方法确定较好的初始策略,以缩短学习时间;并使用具有良好学习性能的eNAC算法进行控制策略优化.二阶开环不稳定对象和某型高亚音速无人机俯仰通道线性参变(LPV)模型的学习控制仿真结果验证了算法的有效性. 展开更多
关键词 强化学习控制 回报函数构造 eNAC算法 输出反馈控制策略
在线阅读 下载PDF
强化学习中异构反馈信号的分析与集成
4
作者 余雪丽 李志 +2 位作者 周昌能 崔倩 胡坤 《计算机科学与探索》 CSCD 2012年第4期366-376,共11页
探讨了在高度危险行业的游戏式专业救援培训系统中,视觉与听觉信号能否协同作用以提高人们的记忆和推理能力问题;运用半马尔科夫博弈模型(semi-Markov game,SMG)提出了合作型多agent分层强化学习框架和算法,构建了由视觉处理agent、听... 探讨了在高度危险行业的游戏式专业救援培训系统中,视觉与听觉信号能否协同作用以提高人们的记忆和推理能力问题;运用半马尔科夫博弈模型(semi-Markov game,SMG)提出了合作型多agent分层强化学习框架和算法,构建了由视觉处理agent、听觉处理agent以及人类agent组成的异构异质多agent系统;指出分析和归纳视觉听觉相干反馈信号的性质和特点是非常具有挑战性的任务,其决定了强化学习中异构信号的集成方法和途径。在此基础上,提出了将异构反馈信号进行集成的偏信息学习算法,大大缩小了状态搜索空间,缓解了强化学习固有的"维数灾难"问题;根据心理治疗的"系统脱敏"原理,设计了"情绪-个性-刺激-调节"(mood-personality-stimulus-regulation,MPSR)模型和恐怖场景个性化呈现算法(personalized rendering algorithm for terrorist scene,PRATS),用于提升救援队员的心理承受能力,并通过实验验证了算法的有效性。 展开更多
关键词 强化学习 异构 反馈信号 视觉听觉相干性
在线阅读 下载PDF
基于强化学习的相关反馈图像检索算法 被引量:1
5
作者 孙惠萍 龚声蓉 +1 位作者 王朝晖 刘全 《计算机工程与应用》 CSCD 北大核心 2008年第34期175-178,共4页
相关反馈算法是图像检索不可缺的重要组成部分,是近来图像检索中研究的一个热点。提出了基于强化学习的相关反馈算法。根据强化学习中的Q_学习函数,建立矩阵Q,对每幅图像建立对应的一项Q(ii=1,2,…,n),记录每幅图像的本次检索中的累计... 相关反馈算法是图像检索不可缺的重要组成部分,是近来图像检索中研究的一个热点。提出了基于强化学习的相关反馈算法。根据强化学习中的Q_学习函数,建立矩阵Q,对每幅图像建立对应的一项Q(ii=1,2,…,n),记录每幅图像的本次检索中的累计反馈值,并根据加权特征法计算新的特征,对于每幅反馈的图像根据Q_学习函数计算其当前的累计反馈值。Q值越大即越与例子图像相关。由于强化学习是通过不断对环境的反馈来获得最佳的路径,这与相关反馈通过对用户检索意图的摸索来获得最优答案的思想一致。实验表明,提出的相关反馈算法具有更大的优越性。 展开更多
关键词 强化学习 Q_学习 相关反馈 图像检索
在线阅读 下载PDF
基于人类先验知识的强化学习综述 被引量:2
6
作者 国子婧 冯旸赫 +1 位作者 姚晨蝶 许乃夫 《计算机应用》 CSCD 北大核心 2021年第S02期1-4,共4页
强化学习通过智能体与环境互动以实现预期目标最大化,通常被用于解决关于连续决策的任务规划问题。当前任务规划主要使用规则或者运筹方法进行求解。这类方法的时间复杂度和空间复杂度随问题规模增长呈指数级增长,难以求解大规模问题;... 强化学习通过智能体与环境互动以实现预期目标最大化,通常被用于解决关于连续决策的任务规划问题。当前任务规划主要使用规则或者运筹方法进行求解。这类方法的时间复杂度和空间复杂度随问题规模增长呈指数级增长,难以求解大规模问题;并且对于动态任务规划问题也束手无策,只能求解静态的确定性问题。强化学习中的值函数近似等近似算法解决了这类方法的"维度灾难"问题,同时强化学习在智能体与环境的交互过程中加入随机因素,使其广泛应用于解决动态与随机性问题。然而强化学习需要智能体不断与环境交互来得到最优策略,当状态空间较大时,需要更多的采样和探索对策略进行梯度更新,收敛速度较慢,难以在实际中应用。人类在学习时利用先验知识保证了学习的快速开始,并减少了问题的探索时间,因此研究人类先验知识和强化学习的意义重大,可有效减少智能体对环境的采样和探索,帮助智能体更快地找到最优策略。基于人类先验知识与智能体交互的时间节点进行分类,对整合人类先验知识到强化学习的方法进行综述,最后对其发展方向进行展望。 展开更多
关键词 强化学习 人类先验知识 人类反馈 人类建议 人类示范
在线阅读 下载PDF
欠驱动船舶路径跟踪的强化学习迭代滑模控制 被引量:20
7
作者 沈智鹏 代昌盛 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2017年第5期697-704,共8页
针对三自由度欠驱动船舶的路径跟踪问题,本文提出一种基于强化学习的自适应迭代滑模控制方法。该方法引入双曲正切函数对系统状态进行迭代滑模设计,并采用神经网络对控制参数进行优化,增强控制器的自适应性。通过定义一种控制量抖振测... 针对三自由度欠驱动船舶的路径跟踪问题,本文提出一种基于强化学习的自适应迭代滑模控制方法。该方法引入双曲正切函数对系统状态进行迭代滑模设计,并采用神经网络对控制参数进行优化,增强控制器的自适应性。通过定义一种控制量抖振测量变量和强化学习信号,实现对神经网络的结构和参数进行在线调整,能进一步抑制控制量的抖振作用。应用5446TEU集装箱船的数学模型进行控制仿真,结果表明所设计控制器能有效地处理风和流等外界扰动,具有较强的鲁棒性,与迭代滑模控制器相比舵角的抖振减小明显,控制舵角信号符合船舶的实际操作要求,更符合工程实际要求。 展开更多
关键词 欠驱动船舶 路径跟踪 控制器设计 自适应 迭代滑模控制 滑模面反馈 神经网络 强化学习
在线阅读 下载PDF
基于机器学习的主动配电网能量管理与运行控制 被引量:1
8
作者 吴文传 蔺晨晖 +6 位作者 孙宏斌 王彬 刘昊天 吴冠男 李鹏华 孙树敏 卢建刚 《电力系统自动化》 EI CSCD 北大核心 2024年第20期2-11,共10页
随着分布式资源和灵活负荷广泛接入,配电网正演变成为主动配电网,其能量管理与运行控制面临着巨大挑战:1)海量分布式资源并网使得调控需求大增,同时引入了大量随机性使得运行风险增加,需要挖掘其主动支撑能力;2)分布式资源量大且异动频... 随着分布式资源和灵活负荷广泛接入,配电网正演变成为主动配电网,其能量管理与运行控制面临着巨大挑战:1)海量分布式资源并网使得调控需求大增,同时引入了大量随机性使得运行风险增加,需要挖掘其主动支撑能力;2)分布式资源量大且异动频繁,难以及时维护,配电网模型精度差,基于精确建模的运行控制和优化调度技术的工程应用困难。为应对上述挑战,文中介绍了基于机器学习的理论和方法,提出了“测-辨-控”一体化的主动配电网能量管理与运行控制技术体系,实现少/免模型维护的运行控制与优化调度。同时,分析了以下核心技术:1)配电网弱/无模型实时调控技术,实现自律优化;2)分布式资源集群自适应动态控制技术,实现对电网的主动支撑;3)风险量化的概率优化调度方法,实现风险与经济的平衡。最后,简要介绍了适应含极高比例分布式资源的主动配电网的能量管理与运行控制系统架构。 展开更多
关键词 主动配电网 分布式资源 能量管理 运行控制 机器学习 反馈优化 深度强化学习
在线阅读 下载PDF
多智能体强化学习在城市交通网络信号控制方法中的应用综述 被引量:32
9
作者 杨文臣 张轮 Zhu Feng 《计算机应用研究》 CSCD 北大核心 2018年第6期1613-1618,共6页
交通信号控制系统在物理位置和控制逻辑上分散于动态变化的网络交通环境,将每个路口的交通信号控制器看做一个异质的智能体,非常适合采用无模型、自学习、数据驱动的多智能体强化学习(MARL)方法建模与描述。为了研究该方法的现状、存在... 交通信号控制系统在物理位置和控制逻辑上分散于动态变化的网络交通环境,将每个路口的交通信号控制器看做一个异质的智能体,非常适合采用无模型、自学习、数据驱动的多智能体强化学习(MARL)方法建模与描述。为了研究该方法的现状、存在问题及发展前景,系统跟踪了多智能体强化学习在国内外交通控制领域的具体应用,包括交通信号MARL控制概念模型、完全孤立的多智能体强化学习(MARL)的控制、部分状态合作的多智能体强化学习控制和动作联动的多智能体强化学习(MARL)控制,分析其技术特征和代际差异,讨论了多智体强化学习方法在交通信号控制中的研究动向,提出了发展网络交通信号多智能体强化学习集成控制的关键问题在于强化学习控制机理、联动协调性、交通状态特征抽取和多模式整合控制。 展开更多
关键词 智能交通 交通控制 多智能体强化学习 闭环反馈 联动协调 数据驱动
在线阅读 下载PDF
基于深度强化学习的服务功能链跨域映射算法 被引量:4
10
作者 朱国晖 李庆 梁申麟 《计算机应用研究》 CSCD 北大核心 2021年第6期1834-1837,1842,共5页
在域内部分信息隔离场景下,针对SFC映射对传输时延和资源开销的影响,提出一种基于深度强化学习的服务功能链跨域映射算法。首先提出一个集中式编排架构,在此架构下上层控制器利用全网格聚合技术来构建抽象拓扑,降低域间映射复杂度;其次... 在域内部分信息隔离场景下,针对SFC映射对传输时延和资源开销的影响,提出一种基于深度强化学习的服务功能链跨域映射算法。首先提出一个集中式编排架构,在此架构下上层控制器利用全网格聚合技术来构建抽象拓扑,降低域间映射复杂度;其次将SFC请求分割问题建模为马尔可夫决策过程,使得虚拟网络功能均衡地分配到各个域中;最后以域间传输时延以及映射资源开销为奖励函数构建深度强化学习网络,通过训练完成域间映射,如果域内映射失败则采用反馈机制提高SFC请求接受率。仿真结果表明,该算法有效地减小了传输时延和资源开销,同时提高了请求接受率。 展开更多
关键词 多网络域 服务功能链 深度强化学习 反馈机制
在线阅读 下载PDF
基于深度强化学习的云软件服务自适应资源分配方法 被引量:5
11
作者 傅德泉 杨立坚 陈哲毅 《计算机应用》 CSCD 北大核心 2022年第S01期201-207,共7页
近年来,基于云计算的软件服务对自适应的资源分配技术提出了越来越高的要求,以保证良好的服务质量(QoS)和合理的资源成本。然而,由于云环境中不断变化的工作负载,基于云计算的软件服务资源分配面临着巨大的挑战,不合理的资源分配方案可... 近年来,基于云计算的软件服务对自适应的资源分配技术提出了越来越高的要求,以保证良好的服务质量(QoS)和合理的资源成本。然而,由于云环境中不断变化的工作负载,基于云计算的软件服务资源分配面临着巨大的挑战,不合理的资源分配方案可能降低QoS,并且导致高额的资源成本。传统的方法大多依赖于专家知识或者多次迭代,这可能导致适应性差和额外的成本。现有的基于强化学习(RL)的方法通常以固定的工作负载环境为目标,不能有效地适应具有可变工作负载的真实场景。为此,提出一种基于深度强化学习(DRL)的自适应资源分配方法,在该方法中根据运行时系统状态训练得到基于深度Q网络(DQN)的管理操作预测模型,并且设计了一种基于反馈控制的运行时决策算法,进而可以根据当前系统状态确定目标资源分配方案。在RUBiS基准对方法进行了评估,实验结果表明,该方法比经典的基于启发式的粒子群优化(PSO)算法和贪心算法适应度函数值平均分别高出4.4%和5.6%,能够有效地平衡对于QoS和资源成本的需求。 展开更多
关键词 云计算 基于云的软件服务 资源分配 深度强化学习 反馈控制
在线阅读 下载PDF
基于选址机制与深度强化学习的WRSN移动能量补充 被引量:2
12
作者 王倩 《现代电子技术》 2023年第21期82-88,共7页
无线充电已成为彻底解决无线传感器网络能量受限问题最有前景的技术之一。针对传感器网络应用场景中的高能量补充需求,提出一种基于选址机制与深度强化学习的一对多充电策略MSRL,利用带权集合覆盖问题求解移动充电装置(MC)的近似最优充... 无线充电已成为彻底解决无线传感器网络能量受限问题最有前景的技术之一。针对传感器网络应用场景中的高能量补充需求,提出一种基于选址机制与深度强化学习的一对多充电策略MSRL,利用带权集合覆盖问题求解移动充电装置(MC)的近似最优充电驻点集;基于Dueling DQN算法,综合考虑传感器的能量消耗率、地理位置、剩余能量等因素确定MC访问充电驻点的顺序。通过捕捉充电动作在时间序列中的关系,使用奖励反馈评估充电决策的质量,自适应调整充电路径,实现MC充电调度的优化。进一步对Dueling DQN算法进行改进,利用Gradient Bandit策略提高奖励值高的样本被采样的概率,加快算法训练速度。大量仿真实验结果表明,MSRL策略不仅可以显著减少传感器节点的死亡数和网络平均能量消耗,延长网络的生存时间,并且优于其他比较方法。 展开更多
关键词 无线可充电传感器网络 一对多能量补充方案 深度强化学习 选址机制 带权集合覆盖 奖励反馈
在线阅读 下载PDF
Pipe-RLHF:计算模式感知的RLHF并行加速框架
13
作者 徐颖 王梦迪 +4 位作者 程龙 刘炼 赵世新 张磊 王颖 《计算机研究与发展》 北大核心 2025年第6期1513-1529,共17页
基于人类反馈的强化学习(reinforcement learning with human feedback,RLHF)作为当前大语言模型(large language models,LLMs)对齐的主流方法,其核心优化算法——近端策略优化(proximal policy optimization,PPO)却面临着显著的效率问... 基于人类反馈的强化学习(reinforcement learning with human feedback,RLHF)作为当前大语言模型(large language models,LLMs)对齐的主流方法,其核心优化算法——近端策略优化(proximal policy optimization,PPO)却面临着显著的效率问题.PPO由生成、推理、训练3个相互关联的阶段组成,各个阶段有着不同的计算特性.然而,现有的RLHF并行框架采用相同并行策略顺序执行PPO的所有阶段,这导致以下2个问题:其一,生成阶段不能充分利用计算资源,进而影响整体效率;其二,阶段间严格串行执行,未能充分利用潜在并行性.针对上述问题,提出了一个新型RLHF并行框架——Pipe-RLHF.该框架能够自适应地根据各阶段的计算特征确定最优并行策略,突破现有阶段串行范式,采用异步PPO算法发掘阶段间的并行性.具体而言,创新性地提出了适用于PPO生成阶段的延迟批间流水线并行方法,显著提升了该阶段的计算资源利用率;再次,使用异步PPO解放阶段间的依赖关系,将阶段间并行应用到PPO的加速上;最后,针对PPO算法的整体优化,构建了分层并行策略空间,并提出了一套优化算法以实现该空间中的最优解搜索.通过在多个大语言模型上的性能评估实验表明,相较于现有方法,Pipe-RLHF最高可实现3.7倍的加速比,充分验证了该框架的有效性和优越性. 展开更多
关键词 基于人类反馈的强化学习 近端策略优化 大模型微调 分布式系统 并行计算
在线阅读 下载PDF
强化学习算法 20分钟教会车辆车道保持
14
《农业装备与车辆工程》 2018年第7期81-81,共1页
英国Wayve公司的研究人员在20 min内“教”会一辆自动驾驶汽车保持在自己的车道上行驶。Wayve公司研发团队的“强化学习”算法与人类安全驾驶员一起,在15~20 min内教会了自动驾驶汽车如何保持在车道内行驶。之前,DeepMind Technologies... 英国Wayve公司的研究人员在20 min内“教”会一辆自动驾驶汽车保持在自己的车道上行驶。Wayve公司研发团队的“强化学习”算法与人类安全驾驶员一起,在15~20 min内教会了自动驾驶汽车如何保持在车道内行驶。之前,DeepMind Technologies公司就通过展示强化学习人工智能如何学习玩围棋或象棋等游戏,证明了其高效性。Wayve团队发布了一个视频,展示了汽车学习的实际情况,并指出这是“首个在自动驾驶汽车上进行强化学习的例子。” 展开更多
关键词 强化学习算法 车道保持 自动驾驶汽车 车辆 研究人员 人类安全 研发团队 人工智能
在线阅读 下载PDF
反馈负波及其理论解释 被引量:16
15
作者 李鹏 李红 《心理科学进展》 CSSCI CSCD 北大核心 2008年第5期705-711,共7页
反馈负波(feedback related negativity,FRN)是由代表行为错误或失去金钱等负性反馈刺激诱发的一种脑电波成分,出现在刺激呈现后250~300ms左右,偶极子源定位发现这一成分产生于前扣带回附近。对于FRN的功能意义的解释主要有强化学习理... 反馈负波(feedback related negativity,FRN)是由代表行为错误或失去金钱等负性反馈刺激诱发的一种脑电波成分,出现在刺激呈现后250~300ms左右,偶极子源定位发现这一成分产生于前扣带回附近。对于FRN的功能意义的解释主要有强化学习理论和情绪动机假说,前者认为FRN反映的是神经系统对反馈刺激的认知加工过程,而后者认为FRN反映的是对情绪动机意义的评价过程。两种理论框架下还有一些目前研究仍待解决的问题,可能是未来研究的方向。 展开更多
关键词 反馈负波 强化学习理论 情绪动机假说 前扣带回 事件相关电位
在线阅读 下载PDF
基于Q—学习的超启发式模型及算法求解多模式资源约束项目调度问题 被引量:8
16
作者 崔建双 吕玥 徐子涵 《计算机集成制造系统》 EI CSCD 北大核心 2022年第5期1472-1481,共10页
为了更好地解决传统的元启发式算法机制单一和面向问题定制不足等问题,提高算法的整体通用性,本文提出一种基于Q—学习的超启发式模型,并基于该模型设计实现了一种超启发式算法,求解多模式资源约束项目调度问题(MRCPSP)。该模型架构分... 为了更好地解决传统的元启发式算法机制单一和面向问题定制不足等问题,提高算法的整体通用性,本文提出一种基于Q—学习的超启发式模型,并基于该模型设计实现了一种超启发式算法,求解多模式资源约束项目调度问题(MRCPSP)。该模型架构分为高低两层,低层由具有多种异构机制和不同参数的元启发式算子组成,高层则依据Q—学习策略自动选择低层算子。模型将多种优秀的元启发式算法与反馈—学习强化机制有机整合,具备灵活的可扩展性。为检验算法效果,从MRCPSP标杆算例库中选取了上千个规模不等的算例,设计了等价比较实验环节,并与最新公开文献提供的结果进行了比较。结果表明,基于Q—学习的超启发式算法在目标值、通用性、鲁棒性等多项性能指标上均表现优异,可以借鉴应用到其他各种组合优化问题。值得一提的是,针对J30算例的计算结果有多达41个算例获得了比当前公开文献报告的已知最优解更好的结果。 展开更多
关键词 超启发式模型 强化学习 Q—学习 多模式资源约束项目调度问题 元启发式算法 反馈学习强化机制
在线阅读 下载PDF
基于负反馈修正的多轮对话推荐系统 被引量:3
17
作者 朱立玺 黄晓雯 +1 位作者 赵梦媛 桑基韬 《计算机学报》 EI CAS CSCD 北大核心 2023年第5期1086-1102,共17页
传统的推荐系统从交互历史中挖掘用户兴趣,面临着无法动态地获取用户实时偏好和细粒度偏好的问题,近年对话推荐系统领域的兴起为此问题提供了新的解决方案.对话推荐系统优势在于其可以动态地和用户进行交互,并在交互过程中获取用户的实... 传统的推荐系统从交互历史中挖掘用户兴趣,面临着无法动态地获取用户实时偏好和细粒度偏好的问题,近年对话推荐系统领域的兴起为此问题提供了新的解决方案.对话推荐系统优势在于其可以动态地和用户进行交互,并在交互过程中获取用户的实时偏好,从而提高推荐系统准确率,提升用户体验.然而对话推荐系统相关研究工作中缺乏对负反馈的充分利用,难以对用户偏好表示进行细粒度的修正,即难以有效平衡用户长期偏好和实时偏好之间的关系,同时存在属性候选集过大导致交互轮次过多的问题.因此,本文基于经典的对话推荐框架CPR(Conversational Path Reasoning)提出了一种能够有效利用用户负反馈的对话推荐模型NCPR(Negative-feedback-guide Conversational Path Reasoning).不同于现有的对话推荐系统工作,NCPR能够充分利用用户在交互过程中给出的属性粒度和物品粒度的负反馈对用户的偏好表示进行动态的修正.此外,CPR将对话推荐建模为一个图上的路径推理问题,NCPR使用协同过滤算法基于属性粒度的负反馈对属性候选集进行重排序,在利用图结构的自然优势限制属性候选集大小的同时,进一步减少候选属性空间大小.四个基准数据集上的实验结果表明,NCPR在推荐准确率和平均交互轮次两个评价指标上的表现优于先进的基线模型.最后,我们设计并实现了一个网页端的对话推荐系统,与在线用户进行交互产生推荐结果,证明了NCPR在真实的对话推荐场景下的有效性. 展开更多
关键词 对话推荐系统 强化学习 交互负反馈 知识图谱 协同过滤
在线阅读 下载PDF
基于反馈机制的图像超分辨率重建算法 被引量:4
18
作者 楼鑫杰 李小薪 刘志勇 《计算机工程》 CAS CSCD 北大核心 2022年第2期261-267,共7页
现有的图像超分辨率重建方法充分利用了强大的深度学习模型,但忽略了人类视觉系统中普遍存在的反馈机制。提出一种新型图像超分辨率重建算法,通过具有约束条件的递归神经网络中包含的隐藏状态实现反馈机制,旨在处理网络间的反馈连接并... 现有的图像超分辨率重建方法充分利用了强大的深度学习模型,但忽略了人类视觉系统中普遍存在的反馈机制。提出一种新型图像超分辨率重建算法,通过具有约束条件的递归神经网络中包含的隐藏状态实现反馈机制,旨在处理网络间的反馈连接并生成更具说服力的高级表示形式,提供更多的上下文信息,从而帮助低分辨率图像完成高分辨率图像的重建。此外,具有较强早期图像重建能力的反馈网络可逐步生成最终的高分辨率图像。为解决低分辨率图像因多种类型的退化而导致的细节损失问题,引入课程学习策略,使网络适用于更复杂的任务,提升模型的鲁棒性。实验结果表明,该算法能有效提升图像超分辨率重建的准确性,与SRCNN、VDSR、RDN等算法相比,其PSNR值最高提升了7.15 dB。 展开更多
关键词 图像超分辨率重建 人类视觉系统 深度学习 反馈机制 课程学习策略
在线阅读 下载PDF
基于人类视觉机制的层级偏移式目标检测 被引量:4
19
作者 秦升 张晓林 +1 位作者 陈利利 李嘉茂 《计算机工程》 CAS CSCD 北大核心 2018年第6期253-258,共6页
当前大多数深度强化学习方法在目标检测方面的召回率较低。为此,提出一种层级偏移的动态搜索方法。在原有层级搜索的基础上,采用了锚点的思想,增加区域偏移,避免层级产生的区域局限,使得搜索更加灵活。结合Double DQN与Dueling DQN的优... 当前大多数深度强化学习方法在目标检测方面的召回率较低。为此,提出一种层级偏移的动态搜索方法。在原有层级搜索的基础上,采用了锚点的思想,增加区域偏移,避免层级产生的区域局限,使得搜索更加灵活。结合Double DQN与Dueling DQN的优势,以Double Dueling DQN的网络结构作为智能体深度增强网络的结构。实验结果表明,与原有层级搜索方式相比,该方式的目标检测的精确度与召回率较高。 展开更多
关键词 人类视觉机制 深度强化学习 层级偏移 目标检测 马尔科夫决策过程
在线阅读 下载PDF
反馈相关负波与成瘾 被引量:2
20
作者 陈乐乐 黄蓉 贾世伟 《心理科学进展》 CSSCI CSCD 北大核心 2020年第6期959-968,共10页
反馈相关负波(feedback-related negativity, FRN)是反馈加工诱发的脑电成分,体现了个体对奖赏的敏感性。成瘾分为物质成瘾和行为成瘾,两类个体的反馈加工都呈现病理性模式。相对于普通反馈物(如金钱),物质成瘾个体在加工成瘾物质时诱发... 反馈相关负波(feedback-related negativity, FRN)是反馈加工诱发的脑电成分,体现了个体对奖赏的敏感性。成瘾分为物质成瘾和行为成瘾,两类个体的反馈加工都呈现病理性模式。相对于普通反馈物(如金钱),物质成瘾个体在加工成瘾物质时诱发的FRN波幅显著增大;在与非成瘾被试的对照研究中,物质成瘾者加工金钱反馈时的FRN也表现出与成瘾相关的异常模式;在行为成瘾个体中亦观察到与物质成瘾个体类似的FRN失调现象。但以往多数研究中对成瘾类型的区分还不够详细,未来研究应进一步考虑成瘾不同亚型的特点;且成瘾个体往往伴随其他精神障碍(如抑郁、焦虑),将来的研究要区分共病因素的影响,揭示成瘾独特的奖赏加工机制问题。 展开更多
关键词 反馈相关负波 物质成瘾 行为成瘾 强化学习 奖赏机制
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部