期刊文献+
共找到762篇文章
< 1 2 39 >
每页显示 20 50 100
基于改进PPO算法的机械臂动态路径规划 被引量:1
1
作者 万宇航 朱子璐 +3 位作者 钟春富 刘永奎 林廷宇 张霖 《系统仿真学报》 北大核心 2025年第6期1462-1473,共12页
针对非结构化环境下机械臂路径规划面临的环境不确定性因素增多、建模难度大等问题,提出了一种基于改进近端策略优化(PPO)算法的机械臂动态路径规划方法。针对由于动态环境中障碍物数量变化而导致的状态空间输入长度不固定的问题,提出... 针对非结构化环境下机械臂路径规划面临的环境不确定性因素增多、建模难度大等问题,提出了一种基于改进近端策略优化(PPO)算法的机械臂动态路径规划方法。针对由于动态环境中障碍物数量变化而导致的状态空间输入长度不固定的问题,提出了基于LSTM网络的环境状态输入处理方法,并对PPO算法的网络结构进行了改进;基于人工势场法设计了奖励函数,并建立机械臂碰撞检测模型。实验结果表明:改进算法能够适应场景中障碍物数量和位置的变化,具有更快的收敛速度和稳定性。 展开更多
关键词 动态路径规划 改进ppo算法 LSTM网络 人工势场法 ML-Agents
在线阅读 下载PDF
一种面向博弈场景的PPO-Dueling DQN策略优化方法
2
作者 刘鹏程 汪永伟 +2 位作者 余欣鋆 刘小虎 胡浩 《小型微型计算机系统》 北大核心 2025年第11期2594-2599,共6页
传统的深度Q学习训练算法改进通常侧重于奖励函数的优化,相对缺少策略的自优化和收敛梯度的动态调整.本文针对该问题,在Dueling-DQN算法的基础上提出了一种混合算法PPO-Dueling DQN,该算法一方面能够使用策略梯度下降和自适应KL散度惩... 传统的深度Q学习训练算法改进通常侧重于奖励函数的优化,相对缺少策略的自优化和收敛梯度的动态调整.本文针对该问题,在Dueling-DQN算法的基础上提出了一种混合算法PPO-Dueling DQN,该算法一方面能够使用策略梯度下降和自适应KL散度惩罚机制,实现目标函数损失和值函数损失的同步更新,进而优化模型的损失函数和策略选择,另一方面能更加实时地提取博弈过程中的状态价值和动作优势,从而避免依靠单一指标进行策略更新和效能评估.通过对比实验,验证了面向网络博弈模型的PPO-Dueling DQN算法在学习能力、收敛速度和自适应效能等指标上的优化效果,并进行了关于折扣因子的参数分析以更好地评估模型效能,实验结果证明本文提出的算法相对于基准模型具有一定的性能优势. 展开更多
关键词 强化学习 深度Q网络 ppo算法 网络攻防博弈 效能评估
在线阅读 下载PDF
局部风信息启发的AVW-PPO室内气源定位算法
3
作者 李世钰 袁杰 +2 位作者 谢霖伟 郭旭 张宁宁 《哈尔滨工业大学学报》 北大核心 2025年第8期57-68,共12页
为解决当前复杂、动态室内羽流环境中气源定位(OSL)效率低下和成功率不足的问题,尤其在湍流条件下机器人难以准确感知环境并实现有效导航的挑战,提出了一种基于深度强化学习的辅助价值与风导向的近端策略优化(AVW-PPO)算法。首先,在原始... 为解决当前复杂、动态室内羽流环境中气源定位(OSL)效率低下和成功率不足的问题,尤其在湍流条件下机器人难以准确感知环境并实现有效导航的挑战,提出了一种基于深度强化学习的辅助价值与风导向的近端策略优化(AVW-PPO)算法。首先,在原始PPO算法的基础上引入辅助价值网络,以减少单一值网络的估计偏差,从而提升策略更新的稳定性与预测精度。其次,设计了一种风导向策略,将局部环境风场信息融入强化学习框架中的状态空间与奖励函数,使机器人能够更敏锐地感知羽流环境的动态变化,优化其决策路径,从而有效提高气源定位的效率。最后,通过构建二维环境中的气体扩散模型,在3种不同的湍流条件下对所提算法进行了测试。结果表明:相同环境条件下,AVW-PPO算法在平均搜索步数和成功率两个指标上均优于其他同类算法,且定位成功率超过99%。其中,风导向策略在提升搜索效率方面表现尤为突出,有助于减少机器人完成任务所需的时间。本研究为解决室内复杂湍流环境下的气源定位问题提供了新思路和新方法。 展开更多
关键词 气源定位 深度强化学习 近端策略优化(ppo) 辅助价值网络 风导向策略
在线阅读 下载PDF
结合PPO和蒙特卡洛树搜索的斗地主博弈模型
4
作者 王世鹏 王亚杰 +2 位作者 吴燕燕 郭其龙 赵甜宇 《重庆理工大学学报(自然科学)》 北大核心 2025年第8期126-133,共8页
斗地主是一种典型的非完备信息博弈,由于具有多人博弈、动作空间庞大、合作与竞争并存等决策需求,单一的蒙特卡洛树搜索在应用时存在效率低的问题。为提升蒙特卡洛树搜索的策略效果和搜索效率,提出一种基于近端策略优化(proximal policy... 斗地主是一种典型的非完备信息博弈,由于具有多人博弈、动作空间庞大、合作与竞争并存等决策需求,单一的蒙特卡洛树搜索在应用时存在效率低的问题。为提升蒙特卡洛树搜索的策略效果和搜索效率,提出一种基于近端策略优化(proximal policy optimization,PPO)算法结合蒙特卡洛树搜索的斗地主博弈模型。利用PPO算法学习斗地主中的牌局和策略信息,训练出可根据当前局面提供动作概率的策略模型,为蒙特卡洛树搜索的选择和模拟阶段提供策略指导。在选择阶段,通过PPO策略模型输出的动作概率优化策略选择公式,指导高质量动作节点的选择。在模拟阶段,PPO替代了随机模拟过程,使模拟更加符合策略,减少低效路径的探索。实验结果表明:结合PPO优化后的蒙特卡洛树搜索不仅提高了决策的效率,还提升了模型的胜率,表现出较强的斗地主博弈决策优势。 展开更多
关键词 ppo算法 蒙特卡洛树搜索 斗地主 非完备信息博弈
在线阅读 下载PDF
基于卷积金字塔网络的PPO算法求解作业车间调度问题 被引量:1
5
作者 徐帅 李艳武 +1 位作者 谢辉 牛晓伟 《现代制造工程》 北大核心 2025年第3期19-30,共12页
作业车间调度问题是一个经典的NP-hard组合优化问题,其调度方案的优劣直接影响制造系统的运行效率。为得到更优的调度策略,以最小化最大完工时间为优化目标,提出了一种基于近端策略优化(Proximal Policy Optimization,PPO)和卷积神经网... 作业车间调度问题是一个经典的NP-hard组合优化问题,其调度方案的优劣直接影响制造系统的运行效率。为得到更优的调度策略,以最小化最大完工时间为优化目标,提出了一种基于近端策略优化(Proximal Policy Optimization,PPO)和卷积神经网络(Convolutional Neural Network,CNN)的深度强化学习(Deep Reinforcement Learning,DRL)调度方法。设计了一种三通道状态表示方法,选取16种启发式调度规则作为动作空间,将奖励函数等价为最小化机器总空闲时间。为使训练得到的调度策略能够处理不同规模的调度算例,在卷积神经网络中使用空间金字塔池化(Spatial Pyramid Pooling,SPP),将不同维度的特征矩阵转化为固定长度的特征向量。在公开OR-Library的42个作业车间调度(Job-Shop Scheduling Problem,JSSP)算例上进行了计算实验。仿真实验结果表明,该算法优于单一启发式调度规则和遗传算法,在大部分算例中取得了比现有深度强化学习算法更好的结果,且平均完工时间最小。 展开更多
关键词 深度强化学习 作业车间调度 卷积神经网络 近端策略优化 空间金字塔池化
在线阅读 下载PDF
基于深度强化学习PPO的车辆智能控制方法
6
作者 叶宝林 王欣 +1 位作者 李灵犀 吴维敏 《计算机工程》 北大核心 2025年第7期385-396,共12页
为提高高速公路上混合环境下车辆的行驶效率、减少交通事故的发生,提出一种基于近端策略优化(PPO)的车辆智能控制方法。首先构建一个融合深度强化学习和传统比例-积分-微分(PID)控制的分层控制框架,上层深度强化学习智能体负责确定控制... 为提高高速公路上混合环境下车辆的行驶效率、减少交通事故的发生,提出一种基于近端策略优化(PPO)的车辆智能控制方法。首先构建一个融合深度强化学习和传统比例-积分-微分(PID)控制的分层控制框架,上层深度强化学习智能体负责确定控制策略,下层PID控制器负责执行控制策略。其次为了提升车辆的行驶效率,通过定义优势距离对观测到的环境状态矩阵进行数据筛选,帮助自主车辆选择具有更长优势距离的车道进行变道。基于定义的优势距离提出一种新的状态采集方法以减少数据处理量,加快深度强化学习模型的收敛速度。另外,为了兼顾车辆的安全性、行驶效率和稳定性,设计一个多目标奖励函数。最后在基于Gym搭建的车辆强化学习任务仿真环境Highway_env中进行测试,对所提方法在不同目标速度下的表现进行分析和讨论。仿真测试结果表明,相比深度Q网络(DQN)方法,所提方法具有更快的收敛速度,且在两种不同目标速度下均能使车辆安全平稳地完成驾驶任务。 展开更多
关键词 近端策略优化 车辆控制 分层控制框架 多目标奖励函数 深度Q网络
在线阅读 下载PDF
自适应奖励函数的PPO曲面覆盖方法
7
作者 李淑怡 阳波 +2 位作者 陈灵 沈玲 唐文胜 《计算机工程》 北大核心 2025年第3期86-94,共9页
针对机器人清洁作业过程中现有曲面覆盖方法难以适应曲面变化且覆盖效率低的问题,提出一种自适应奖励函数的近端策略优化(PPO)曲面覆盖方法(SC-SRPPO)。首先,将目标曲面离散化,以球查询方式获得协方差矩阵,求解点云的法向量,建立3D曲面... 针对机器人清洁作业过程中现有曲面覆盖方法难以适应曲面变化且覆盖效率低的问题,提出一种自适应奖励函数的近端策略优化(PPO)曲面覆盖方法(SC-SRPPO)。首先,将目标曲面离散化,以球查询方式获得协方差矩阵,求解点云的法向量,建立3D曲面模型;其次,以曲面局部点云的覆盖状态特征和曲率变化特征作为曲面模型观测值以构建状态模型,有利于机器人移动轨迹拟合曲面,提高机器人对曲面变化的适应能力;接着,基于曲面的全局覆盖率和与时间相关的指数模型构建一种自适应奖励函数,引导机器人向未覆盖区域移动,提高覆盖效率;最后,将曲面局部状态模型、奖励函数、PPO强化学习算法相融合,训练机器人完成曲面覆盖路径规划任务。在球形、马鞍形、立体心形等3种曲面模型上,以点云覆盖率与覆盖完成时间作为主要评价指标进行实验,结果表明,SC-SRPPO的平均覆盖率为90.72%,与NSGA Ⅱ、PPO、SAC这3种方法对比,覆盖率分别提升4.98%、14.56%、27.11%,覆盖完成时间分别缩短15.20%、67.18%、62.64%。SC-SRPPO能够在适应曲面变化的基础上使机器人更加高效地完成曲面覆盖任务。 展开更多
关键词 清洁机器人 曲面 覆盖路径规划 强化学习 近端策略优化
在线阅读 下载PDF
基于改进PPO的HCSY-MG并网系统分布式混合储能充放电优化控制
8
作者 李锦键 王兴贵 丁颖杰 《电源学报》 北大核心 2025年第4期255-264,共10页
为平抑微源半桥变流器串联星型结构微电网HCSY-MG(half-bridge converter series Y-connection micro-grids)并网系统中微源出力的波动,保证各相直流侧电压之和相等,与并网电流三相平衡,提出1种基于改进近端策略优化PPO(proximal policy... 为平抑微源半桥变流器串联星型结构微电网HCSY-MG(half-bridge converter series Y-connection micro-grids)并网系统中微源出力的波动,保证各相直流侧电压之和相等,与并网电流三相平衡,提出1种基于改进近端策略优化PPO(proximal policy optimization)的分布式混合储能系统HESS(hybrid energy storage system)充、放电优化控制策略。在考虑HCSY-MG系统并网电流与分布式HESS特性的条件下,确定影响并网电流的主要系统变量,以及HESS接入系统的最佳拓扑结构。然后结合串联系统的特点,将分布式HESS的充、放电问题转换为深度强化学习的Markov决策过程。同时针对PPO算法中熵损失权重难以确定的问题,提出1种改进的PPO算法,兼顾智能体的收敛性和探索性。最后以某新能源发电基地的典型运行数据为算例,验证所提控制策略的可行性和有效性。 展开更多
关键词 串联微电网 分布式混合储能系统 近端策略优化 充放电功率 深度强化学习
在线阅读 下载PDF
美味牛肝菌PPO酶学特性及其抑制机理
9
作者 资璐熙 向仕聪 +3 位作者 徐柠檬 李为兰 秦粉 郭磊 《西北农业学报》 北大核心 2025年第2期290-299,共10页
以美味牛肝菌为原料,对PPO进行分离纯化后研究其酶学特性,在此基础上,采用动力学模型和Lineweaver-Burk作图法对PPO热失活动力学和抑制剂作用机理进行分析。结果表明:美味牛肝菌PPO酶促反应产物在407 nm处有最大吸收峰,与邻苯二酚亲和... 以美味牛肝菌为原料,对PPO进行分离纯化后研究其酶学特性,在此基础上,采用动力学模型和Lineweaver-Burk作图法对PPO热失活动力学和抑制剂作用机理进行分析。结果表明:美味牛肝菌PPO酶促反应产物在407 nm处有最大吸收峰,与邻苯二酚亲和力最强,酶促反应动力学参数K_(m)=9.41 mmol/L,V_(max)=196.08 U/min,PPO最适底物为50 mmol/L邻苯二酚,最适pH为6.8,最适反应温度和时间分别为45℃、7 min。PPO在90℃下酶失活最快,其动力学参数为k=2.5045 min^(-1)、D=0.9420 min、T_(1/2)=0.2768 min;70℃~90℃下美味牛肝菌PPO失活活化能E_(a)=130.283 kJ/mol。偏重亚硫酸钠的抑制类型属于非竞争性抑制,抗坏血酸和L-半胱氨酸的抑制类型属于竞争性抑制。热处理和添加抑制剂能有效抑制PPO酶活力,研究结果为美味牛肝菌采后储藏及加工过程中的品质控制提供了一定的参考依据。 展开更多
关键词 美味牛肝菌 多酚氧化酶 酶学特性 分子对接 热失活 抑制剂机理
在线阅读 下载PDF
基于PPO算法的CIES低碳优化调度方法 被引量:2
10
作者 陈凡 吴凌霄 +2 位作者 王曼 吕干云 张小莲 《电力工程技术》 北大核心 2024年第6期88-99,共12页
阶梯式碳交易机制以及优化调度模型求解算法是进行园区综合能源系统(community integrated energy system,CIES)优化调度的重要因素,现有文献对这两个因素的考虑不够全面。为此,文中在考虑阶梯式碳交易机制的基础上,提出采用近端策略优... 阶梯式碳交易机制以及优化调度模型求解算法是进行园区综合能源系统(community integrated energy system,CIES)优化调度的重要因素,现有文献对这两个因素的考虑不够全面。为此,文中在考虑阶梯式碳交易机制的基础上,提出采用近端策略优化(proximal policy optimization,PPO)算法求解CIES低碳优化调度问题。该方法基于低碳优化调度模型搭建强化学习交互环境,利用设备状态参数及运行参数定义智能体的状态、动作空间及奖励函数,再通过离线训练获取可生成最优策略的智能体。算例分析结果表明,采用PPO算法得到的CIES低碳优化调度方法能够充分发挥阶梯式碳交易机制减少碳排放量和提高能源利用率方面的优势。 展开更多
关键词 园区综合能源系统(CIES) 优化调度 近端策略优化(ppo)算法 阶梯式碳交易机制 惩罚系数 碳排放
在线阅读 下载PDF
基于改进PPO的小天体飞越轨道修正机动规划算法
11
作者 扈航 张锦绣 王继河 《宇航学报》 北大核心 2025年第6期1111-1122,共12页
在考虑摄动的Lambert问题中,传统打靶法、进化算法和微分修正法等方法存在计算耗时且依赖于迭代初值、摄动模型等问题,而深度强化学习方法虽能快速生成转移策略,但策略网络无法充分利用已有动力学模型,导致精度受限。针对以上问题,面向... 在考虑摄动的Lambert问题中,传统打靶法、进化算法和微分修正法等方法存在计算耗时且依赖于迭代初值、摄动模型等问题,而深度强化学习方法虽能快速生成转移策略,但策略网络无法充分利用已有动力学模型,导致精度受限。针对以上问题,面向小天体飞越前的轨道修正机动场景,提出了一种基于改进近端策略优化(PPO)的可处理环境摄动的轨道修正机动规划算法。该算法以二体Lambert问题迭代解作为输出基础项,以PPO算法学习环境摄动影响后的决策结果为输出补偿项,兼顾了对环境摄动影响的补偿和计算耗时。仿真结果表明,在环境摄动被准确感知的情况下,所提算法得到的修正机动策略的终端位置精度优于二体Lambert问题迭代解、仅基于PPO算法学习所得结果,略低于微分修正法所得结果;在环境摄动感知存在偏差且机动点间隔时间较长的情况下,所提算法在Monte Carlo打靶实验中的终端位置精度优于微分修正法所得结果,具有更好的泛化能力和鲁棒性。且所提算法的实时性好,在计算资源受限的树莓派4B上测试时在所有场景的平均决策时间均优于0.6 s,具有搭载在探测器上进行实时规划的潜力。 展开更多
关键词 轨道修正机动 小天体飞越 不确定摄动 近端策略优化
在线阅读 下载PDF
基于一种改进PPO算法的无人机空战自主机动决策方法研究 被引量:1
12
作者 张欣 董文瀚 +3 位作者 尹晖 贺磊 张聘 李敦旺 《空军工程大学学报》 CSCD 北大核心 2024年第6期77-86,共10页
深度强化学习的应用为无人机自主机动决策提供了新的可能。提出一种基于态势评估模型重构与近端策略优化(PPO)算法相结合的无人机自主空战机动决策方法,为一对一近距空战提供了有效策略选择。首先,建立高保真六自由度无人机模型与近距... 深度强化学习的应用为无人机自主机动决策提供了新的可能。提出一种基于态势评估模型重构与近端策略优化(PPO)算法相结合的无人机自主空战机动决策方法,为一对一近距空战提供了有效策略选择。首先,建立高保真六自由度无人机模型与近距空战攻击模型;其次,基于空战状态划分重构角度、速度、距离和高度态势函数,提出一种描述机动潜力的新型态势评估指标;之后,基于态势函数设计塑形奖励,并与基于规则的稀疏奖励、基于状态转换的子目标奖励共同构成算法奖励函数,增强了强化学习算法的引导能力;最后,设计专家系统作为对手,在高保真空战仿真平台(JSBSim)中对本文工作进行了评估。仿真验证,应用本文方法的智能体在对抗固定机动对手与专家系统对手时算法收敛速度与胜率都得到了有效提升。 展开更多
关键词 ppo算法 机动潜力 六自由度飞机模型 态势函数 近距空战 专家系统
在线阅读 下载PDF
基于PPO的球形机器人目标跟随研究 被引量:1
13
作者 靳一聪 应展烽 +2 位作者 刘春政 葛昊 陈志华 《兵器装备工程学报》 CAS CSCD 北大核心 2024年第3期280-285,共6页
球形机器人由于其优异的运动性能、出色的地形适应能力和防侧翻的特性,被广泛应用于水下探测、岸滩巡检等需要适应复杂环境的场景。然而球形机器人系统模型具有欠驱动、非线性的特点,运动控制问题复杂,在复杂应用环境下难以可靠跟随目... 球形机器人由于其优异的运动性能、出色的地形适应能力和防侧翻的特性,被广泛应用于水下探测、岸滩巡检等需要适应复杂环境的场景。然而球形机器人系统模型具有欠驱动、非线性的特点,运动控制问题复杂,在复杂应用环境下难以可靠跟随目标。为此,提出了一种基于近端策略优化(PPO)算法的球形机器人目标跟随方法。该方法基于深度强化学习理论,在球形机器人动力学模型的基础上,设计了简单高效的动作空间和表征完善的状态空间。并且为提高目标跟随方法的鲁棒性,该方法在奖励函数中引入人工势场,以使目标始终保持在机器人视野中心。仿真结果表明,所提方法能够满足既定场景的跟随需求,球形机器人使用该方法可以对随机运动目标进行可靠跟随。 展开更多
关键词 球形机器人 目标跟随 强化学习 ppo算法 人工势场
在线阅读 下载PDF
基于PPO的自适应PID控制算法研究 被引量:6
14
作者 周志勇 莫非 +2 位作者 赵凯 郝云波 钱宇峰 《系统仿真学报》 CAS CSCD 北大核心 2024年第6期1425-1432,共8页
采用MATLAB物理引擎联合Python搭建了一个六轴机械臂,并模拟带有扰动的复杂控制环境,为机械臂训练提供现实中无法提供的试错环境。使用强化学习中近端优化算法(proximal policy optimization,PPO)算法对传统PID控制算法进行改进,引入多... 采用MATLAB物理引擎联合Python搭建了一个六轴机械臂,并模拟带有扰动的复杂控制环境,为机械臂训练提供现实中无法提供的试错环境。使用强化学习中近端优化算法(proximal policy optimization,PPO)算法对传统PID控制算法进行改进,引入多智能体思想,根据PID三个参数对控制系统的不同影响及六轴机械臂的特性,将三个参数分别作为不同的智能个体进行训练,实现多智能体自适应调整参数的新型多智能体自适应PID算法。仿真结果表明:该算法的训练收敛性优于MA-DDPG与MA-SAC算法,与传统PID算法的控制效果相比,在遇到扰动及振荡的情况下,能够更有效地抑制振荡,并具有更低的超调量和调整时间,控制过程更为平缓,有效提高了机械臂的控制精度,证明了该算法的鲁棒性及有效性。 展开更多
关键词 强化学习 近端优化算法 自适应PID整定 机械臂 多智能体
在线阅读 下载PDF
PPO增韧生物基PA56合金的制备及性能
15
作者 庄肖 种云胜 +3 位作者 王立岩 别致 王子超 崔致博 《塑料》 CAS CSCD 北大核心 2024年第4期1-7,共7页
以有机刚性粒子PPO为增韧剂,采用熔融共混的方法对PA56进行增韧改性,制得PA56/PPO合金。研究结果表明,PA56/PPO合金样品断面形貌呈现典型的海-岛结构,PPO以球状颗粒的形态均匀地分布在PA56连续相中,相畴尺寸为100~300 nm。PA56/PPO合金... 以有机刚性粒子PPO为增韧剂,采用熔融共混的方法对PA56进行增韧改性,制得PA56/PPO合金。研究结果表明,PA56/PPO合金样品断面形貌呈现典型的海-岛结构,PPO以球状颗粒的形态均匀地分布在PA56连续相中,相畴尺寸为100~300 nm。PA56/PPO合金的力学性能测试表明,随着PPO含量的增加,简支梁缺口冲击强度增强,断裂伸长率提高,当PPO质量分数为30%时,PA56/PPO合金的冲击强度为9.4 kJ/m^(2),断裂伸长率为20.5%,与纯PA56相比,分别提高了303%和820%;但是,合金的拉伸强度变化较小。当PPO质量分数为30%,PA56/PPO合金吸水率为1.67%,与纯PA56相比降低了57.6%。随着体系中PPO含量的增加,合金材料的结晶温度和结晶度逐渐降低,热失重并未发生明显改变。 展开更多
关键词 生物基PA56 ppo 增韧 合金 性能
在线阅读 下载PDF
基于PPO算法的不同驾驶风格跟车模型研究
16
作者 闫鑫 黄志球 +1 位作者 石帆 徐恒 《计算机科学》 CSCD 北大核心 2024年第9期223-232,共10页
自动驾驶对于减少交通堵塞、提高驾驶舒适性具有非常重要的作用,如何提高人们对自动驾驶技术的接受程度仍具有重要的研究意义。针对不同需求的人群定制不同的驾驶风格,可以帮助驾驶人理解自动驾驶行为,提高驾驶人的乘车体验,在一定程度... 自动驾驶对于减少交通堵塞、提高驾驶舒适性具有非常重要的作用,如何提高人们对自动驾驶技术的接受程度仍具有重要的研究意义。针对不同需求的人群定制不同的驾驶风格,可以帮助驾驶人理解自动驾驶行为,提高驾驶人的乘车体验,在一定程度上消除驾驶人对使用自动驾驶系统的心理抵抗性。通过分析自动驾驶场景下的跟车行为,提出基于PPO算法的不同驾驶风格的深度强化学习模型设计方案。首先分析德国高速公路车辆行驶数据集(HDD)中大量驾驶行为轨迹,根据跟车时距(THW)、跟车距离(DHW)、行车加速度以及跟车速度特征进行归类,提取激进型的驾驶风格和稳健型的驾驶风格的特征数据,以此为基础编码能够反映驾驶人风格的奖励函数,经过迭代学习生成不同驾驶风格的深度强化学习模型,并在highway env平台上进行道路模拟。实验结果表明,基于PPO算法的不同风格驾驶模型具有完成任务目标的能力,且与传统的智能驾驶模型(IDM)相比,能够在驾驶行为中准确反映出不同的驾驶风格。 展开更多
关键词 自动驾驶 智能驾驶模型 强化学习 ppo算法 主成分分析 K-MEANS
在线阅读 下载PDF
丝瓜多酚氧化酶PPO基因家族的克隆与表达分析 被引量:7
17
作者 朱海生 康娟 +5 位作者 刘建汀 陈敏氡 李永平 王彬 林碧英 温庆放 《核农学报》 CAS CSCD 北大核心 2018年第8期1502-1512,共11页
多酚氧化酶(PPO)是参与酚类物质氧化的主要酶类之一,在果蔬褐变中发挥重要作用。为探究丝瓜中PPO基因家族的功能,以闽丝3号丝瓜为试验材料,通过转录组测序和RT-PCR方法获得了3个丝瓜PPO基因家族的c DNA序列,依次命名为Lc PPO1(Gen Bank... 多酚氧化酶(PPO)是参与酚类物质氧化的主要酶类之一,在果蔬褐变中发挥重要作用。为探究丝瓜中PPO基因家族的功能,以闽丝3号丝瓜为试验材料,通过转录组测序和RT-PCR方法获得了3个丝瓜PPO基因家族的c DNA序列,依次命名为Lc PPO1(Gen Bank登录号为KM506756)、Lc PPO2(Gen Bank登录号为KR819890)和Lc PPO3(Gen Bank登录号为KX092429);Lc PPO1基因全长2 026 bp,包含一个1 794 bp的ORF,编码598个氨基酸;Lc PPO2基因全长2 071 bp,ORF为1 722 bp,编码574个氨基酸;Lc PPO3基因全长2 189 bp,ORF为1 779 bp,编码593个氨基酸;3个基因均无内含子,其编码的蛋白与甜瓜、黄瓜同源蛋白的相似性较高。生物信息学分析表明,3个基因编码的酶蛋白均无信号肽,无跨膜结构域,为亲水性稳定蛋白,Wolf Psort预测其亚细胞定位于叶绿体。Lc PPO具有PPO蛋白的典型特征,分别具有PPO1-DWL、PPO1-KFDV 2个结构域和一个能够结合2个铜离子(Cu A、Cu B)的中央域酪氨酸酶。实时荧光定量PCR分析显示,Lc PPO家族的3个基因在丝瓜根、茎、叶、花和果实中均有表达。在丝瓜采后储藏期间,3个PPO基因初期表达上调,后期表达量受到抑制;在丝瓜鲜切条件下,Lc PPO1和Lc PPO2基因表达量总体呈先上升后下降趋势,Lc PPO3基因鲜切后表达量均低于采后0h。Lc PPO基因家族基因表达、PPO活性、总酚与丝瓜褐变关系密切,其中Lc PPO1、Lc PPO2在普通丝瓜果肉褐变过程中可能发挥着重要作用。本研究结果为进一步揭示丝瓜褐变的发生机理和丝瓜品种遗传改良奠定了一定的理论基础。 展开更多
关键词 丝瓜 褐变 ppo 表达分析 ppo活性
在线阅读 下载PDF
小麦PPO基因等位变异及面粉白度特性分析 被引量:4
18
作者 王蕾 高翔 +6 位作者 陈其皎 李晓燕 董剑 赵万春 魏慧 石引刚 陈良国 《西北农业学报》 CAS CSCD 北大核心 2012年第12期11-19,共9页
利用分子标记PPO18和STS01对173份供试小麦品种Ppo2-A和Ppo2-D位点的等位基因变异进行分子检测,并根据品种间不同PPO等位基因组合类型将供试小麦品种进行分类,同时对多酚氧化酶PPO活性进行生化测定及面粉白度测定分析。结果表明,173份... 利用分子标记PPO18和STS01对173份供试小麦品种Ppo2-A和Ppo2-D位点的等位基因变异进行分子检测,并根据品种间不同PPO等位基因组合类型将供试小麦品种进行分类,同时对多酚氧化酶PPO活性进行生化测定及面粉白度测定分析。结果表明,173份小麦品种共检测出Ppo-A1b/Ppo-D1a、Ppo-A1b/Ppo-D1b、Ppo-A1a/Ppo-D1a和Ppo-A1a/Ppo-D1b4种等位基因组合类型,且各基因组合类型出现的频率分别为38.7%、13.9%、35.8%和11.6%;供试小麦品种不同位点PPO等位基因出现的频率差异较大,2A位点等位基因Ppo-A1a、Ppo-A1b出现频率相近,而2D位点等位基因Ppo-D1a出现频率是Ppo-D1b的3倍;所测定的173份小麦品种PPO活性均值为117.3A475/(min.mg),其中低PPO品种所占比例较高;4种基因组合类型PPO活性顺序为Ppo-A1a/Ppo-D1b>Ppo-A1a/Ppo-D1a>Ppo-A1b/Ppo-D1b>Ppo-A1b/Ppo-D1a,且彼此间差异均达到显著水平(P<0.05);供试小麦的面粉白度均值为73.0%,达到国家面粉白度等级一级标准的品种38份,占供试小麦总数的22.0%;其中基因组合为Ppo-A1a/Ppo-D1b的品种面粉白度显著低于其他3种基因组合。总体来看,供试的小麦品种间面粉白度及籽粒PPO活性变异范围较广,面粉白度与PPO活性呈显著负相关,且控制PPO的主效基因的等位变异对PPO活性及面粉白度均有显著影响。对供试小麦品种的面粉白度、PPO活性表现及PPO等位基因组合类型进行综合考察,筛选出23份具有高白度低PPO活性的小麦品种,可以作为高白度低PPO活性小麦育种的亲本材料。 展开更多
关键词 小麦品种 ppo基因等位变异 ppo活性 面粉白度 品种筛选
在线阅读 下载PDF
小麦籽粒多酚氧化酶(PPO)检测方法的优化及其在育种中的应用 被引量:3
19
作者 孙家柱 赵军涛 +5 位作者 刘冬成 阳文龙 罗光彬 张立异 张相岐 张爱民 《麦类作物学报》 CAS CSCD 北大核心 2012年第3期448-453,共6页
降低小麦中多酚氧化酶(PPO)活性,减缓面粉制品的褐化,是重要的育种目标之一。为了更好地服务于低PPO育种,本研究对检测PPO活性的原苯酚染色法进行了优化,更好地发挥了其鉴别力强、结果稳定、对种子活力伤害小等优点,便于育种者使用。苯... 降低小麦中多酚氧化酶(PPO)活性,减缓面粉制品的褐化,是重要的育种目标之一。为了更好地服务于低PPO育种,本研究对检测PPO活性的原苯酚染色法进行了优化,更好地发挥了其鉴别力强、结果稳定、对种子活力伤害小等优点,便于育种者使用。苯酚染色和分子标记结果对比发现,染色结果可以很好地反映亲本(或高代)材料中PPO的基因型,特别在低PPO材料中吻合更好。对大量亲本和世代材料的籽粒染色发现,PPO不仅存在于种皮中,其活性还是由种皮基因型决定的,后代PPO性状表现出母性遗传和加性效应的特点,控制高PPO特性的两个主效基因之间具有明显的代偿作用。PPO性状遗传相对简单,纯合较快,F2以后籽粒的染色程度以单株为单位发生分离。尽管染色是针对种皮基因型的,但PPO基因的这些遗传特点和小麦的自交特性,使染色结果同样可以预测后代单株的分离前途。这一优化的籽粒染色法在低PPO育种中的有效性是可以肯定的。 展开更多
关键词 小麦 多酚氧化酶(ppo) 籽粒苯酚染色 ppo遗传 品质育种
在线阅读 下载PDF
芳香族双磷酸酯复配体系阻燃PPO/HIPS的制备与阻燃性能 被引量:11
20
作者 辛菲 欧育湘 李秉海 《塑料》 CAS CSCD 北大核心 2007年第5期49-53,共5页
采用芳香族双磷酸酯如双酚A双(二苯基)磷酸酯(BDP)和间苯二酚双(二苯基)磷酸酯(RDP),分别与纳米二氧化硅(n-SiO2)、三聚氰胺氰尿酸盐(MCA)复配制备了阻燃PPO/HIPS和阻燃PPO/HIPS纳米材料。利用氧指数(LOI)、水平垂直燃烧(UL94V)、热失... 采用芳香族双磷酸酯如双酚A双(二苯基)磷酸酯(BDP)和间苯二酚双(二苯基)磷酸酯(RDP),分别与纳米二氧化硅(n-SiO2)、三聚氰胺氰尿酸盐(MCA)复配制备了阻燃PPO/HIPS和阻燃PPO/HIPS纳米材料。利用氧指数(LOI)、水平垂直燃烧(UL94V)、热失重分析(TGA),锥形量热仪(CONE)等技术探讨了复配体系对PPO/HIPS的阻燃作用和阻燃机理。实验结果证明:采用复配体系阻燃的PPO/HIPS取得了很好的效果。在相同添加量的情况下RDP比BDP较优。材料氧指数最高达到了35.0%,具UL94 V-0阻燃级。 展开更多
关键词 间苯二酚双(二苯基)磷酸酯 双酚A双(二苯基)磷酸酯 阻燃ppo/HIPS 阻燃ppo/HIPS纳米材料 阻燃机理
在线阅读 下载PDF
上一页 1 2 39 下一页 到第
使用帮助 返回顶部