期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
6
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于竞争双深度Q网络的动态频谱接入
被引量:
3
1
作者
梁燕
惠莹
《电讯技术》
北大核心
2022年第12期1715-1721,共7页
针对多信道动态频谱接入问题,建立了存在感知错误与接入碰撞的复杂信道场景,提出了一种结合双深度Q网络和竞争Q网络的竞争双深度Q网络学习框架。双深度Q网络将动作的选择和评估分别用不同值函数实现,解决了值函数的过估计问题,而竞争Q...
针对多信道动态频谱接入问题,建立了存在感知错误与接入碰撞的复杂信道场景,提出了一种结合双深度Q网络和竞争Q网络的竞争双深度Q网络学习框架。双深度Q网络将动作的选择和评估分别用不同值函数实现,解决了值函数的过估计问题,而竞争Q网络解决了神经网络结构优化问题。该方案保证每个次要用户根据感知和回报结果做出频谱接入决策。仿真结果表明,在同时存在感知错误和次要用户冲突的多信道情况下,竞争双深度Q网络相比于同类方法具有较好的损失预测模型,其回报更稳定且提高了4%。
展开更多
关键词
认知无线电
频谱感知
动态频谱接入
深度
强化学习
竞争双深度q网络
在线阅读
下载PDF
职称材料
基于竞争双深度Q网络的频谱感知和接入
被引量:
2
2
作者
梁燕
胡垚林
惠莹
《电讯技术》
北大核心
2023年第11期1661-1669,共9页
认知用户通过频谱感知和接入过程识别频谱状态并占用空闲频谱,可有效利用频谱资源。针对频谱感知中存在感知错误和频谱接入中存在用户碰撞的问题,首先建立多用户多信道模型,设计频谱感知和频谱接入过程;然后通过结合双深度Q网络和竞争Q...
认知用户通过频谱感知和接入过程识别频谱状态并占用空闲频谱,可有效利用频谱资源。针对频谱感知中存在感知错误和频谱接入中存在用户碰撞的问题,首先建立多用户多信道模型,设计频谱感知和频谱接入过程;然后通过结合双深度Q网络和竞争Q网络,设计竞争双深度Q网络,解决过估计问题的同时优化网络结构;最后通过智能体与所设计模型中状态、观测、回报和策略的交互,完成使用竞争双深度Q网络解决频谱感知和接入问题的一体化研究。仿真结果表明,相比于已有深度强化学习方法,使用竞争双深度Q网络得到的数值结果更稳定且感知正确率和信道利用率都提高了4%。
展开更多
关键词
频谱感知
频谱接入
深度
强化学习
竞争双深度q网络
在线阅读
下载PDF
职称材料
面向B5G多业务场景基于D3QN的双时间尺度网络切片算法
被引量:
8
3
作者
陈赓
齐书虎
+1 位作者
沈斐
曾庆田
《通信学报》
EI
CSCD
北大核心
2022年第11期213-224,共12页
为了有效满足不同切片的差异化服务质量需求,面向B5G多业务场景提出了一种基于竞争双深度Q网络(D3QN)的双时间尺度网络切片算法。研究了联合资源切片和调度问题,以归一化处理后的频谱效率和不同切片用户服务质量指数的加权和作为优化目...
为了有效满足不同切片的差异化服务质量需求,面向B5G多业务场景提出了一种基于竞争双深度Q网络(D3QN)的双时间尺度网络切片算法。研究了联合资源切片和调度问题,以归一化处理后的频谱效率和不同切片用户服务质量指数的加权和作为优化目标。在大时间尺度内,SDN控制器根据每种业务的资源需求利用D3QN算法预先分配给不同的切片,然后根据基站负载状态执行基站级资源更新。在小时间尺度内,基站通过轮询调度算法将资源调度到终端用户。仿真结果表明,所提算法在保证切片用户服务质量需求、频谱效率和系统效用方面具有优异的性能。与其他4种基准算法相比,所提算法的系统效用分别提升了3.22%、3.81%、7.48%和21.14%。
展开更多
关键词
双
时间尺度
资源分配
网络
切片
竞争双深度q网络
系统效用
在线阅读
下载PDF
职称材料
基于深度强化学习的图书分拣车的路径规划
被引量:
1
4
作者
陈玥
《现代电子技术》
北大核心
2024年第19期161-168,共8页
针对图书智能分拣系统中的分拣车路径规划问题,提出一种基于深度强化学习框架和竞争双深度Q网络路径规划算法。将分拣车的路径规划问题构建成马尔可夫决策过程,然后通过结合竞争Q网络和双深度Q网络构建竞争双深度Q网络(D3QN),进而在避...
针对图书智能分拣系统中的分拣车路径规划问题,提出一种基于深度强化学习框架和竞争双深度Q网络路径规划算法。将分拣车的路径规划问题构建成马尔可夫决策过程,然后通过结合竞争Q网络和双深度Q网络构建竞争双深度Q网络(D3QN),进而在避免过估计的同时,优化网络结构。最后,通过设计智能代理的状态、动作和奖励函数,并采用动态ε-贪婪算法和衰减式学习率策略,使智能代理能够快速地选择最优动作,缩短完成预定卸载的移动路径,降低碰撞障碍物的概率。仿真结果表明,相比于基于竞争Q网络、双深度Q网络和深度Q网络的路径规划算法,提出的基于D3QN方法所规划的路径更短、碰撞率更低。
展开更多
关键词
自动分拣
机器人
路径规划
深度
强化学习
竞争双深度q网络
马尔可夫决策
在线阅读
下载PDF
职称材料
混合交通流环境下基于改进强化学习的可变限速控制策略
被引量:
19
5
作者
韩磊
张轮
郭为安
《交通运输系统工程与信息》
EI
CSCD
北大核心
2023年第3期110-122,共13页
现有的可变限速(VSL)控制策略灵活性较差,响应速度较慢,对驾驶人遵从度和交通流状态预测模型的依赖性较高,且单纯依靠可变限速标志(VMS)向驾驶人发布限速值,难以在智能网联车辆(CAVs)与人工驾驶车辆(HDVs)混行的交通环境中实现较好的控...
现有的可变限速(VSL)控制策略灵活性较差,响应速度较慢,对驾驶人遵从度和交通流状态预测模型的依赖性较高,且单纯依靠可变限速标志(VMS)向驾驶人发布限速值,难以在智能网联车辆(CAVs)与人工驾驶车辆(HDVs)混行的交通环境中实现较好的控制效果。对此,结合深度强化学习无需建立交通流预测模型,能自动适应复杂环境,以及CAVs可控性的优势,提出一种混合交通流环境下基于改进竞争双深度Q网络(IPD3QN)的VSL控制策略,即IPD3QN-VSL。首先,将优先经验回放机制引入深度强化学习的竞争双深度Q网络(D3QN)框架中,提升网络的收敛速度和参数更新效率;并提出一种新的自适应ε-贪婪算法克服深度强化学习过程中探索与利用难以平衡的问题,实现探索效率和稳定性的提高。其次,以最小化路段内车辆总出行时间(TTS)为控制目标,将实时交通数据和上个控制周期内的限速值作为IPD3QN算法的输入,构造奖励函数引导算法输出VSL控制区域内执行的动态限速值。该策略通过基础设施到车辆通信(I2V)向CAVs发布限速信息,HDVs则根据VMS上公布的限速值以及周围CAVs的行为变化做出决策。最后,在不同条件下验证IPD3QN-VSL控制策略的有效性,并与无控制情况、反馈式VSL控制和D3QN-VSL控制进行控制效果上的优劣对比。结果表明:在30%渗透率下,所提策略即可发挥显著控制性能,在稳定和波动交通需求情境中均能有效提升瓶颈区域的通行效率,缩小交通拥堵时空范围,与次优的D3QN-VSL控制相比,两种情境中的TTS分别改善了14.46%和10.36%。
展开更多
关键词
智能交通
可变限速控制
改进
竞争双深度q网络
混合交通流
智能网联车辆
深度
强化学习
在线阅读
下载PDF
职称材料
基于对手动作预测的智能博弈对抗算法
被引量:
3
6
作者
韩润海
陈浩
+1 位作者
刘权
黄健
《计算机工程与应用》
CSCD
北大核心
2023年第7期190-197,共8页
智能博弈对抗场景中,多智能体强化学习算法存在“非平稳性”问题,智能体的策略不仅取决于环境,还受到环境中对手(其他智能体)的影响。根据对手与环境的交互信息,预测其策略和意图,并以此调整智能体自身策略是缓解上述问题的有效方式。...
智能博弈对抗场景中,多智能体强化学习算法存在“非平稳性”问题,智能体的策略不仅取决于环境,还受到环境中对手(其他智能体)的影响。根据对手与环境的交互信息,预测其策略和意图,并以此调整智能体自身策略是缓解上述问题的有效方式。提出一种基于对手动作预测的智能博弈对抗算法,对环境中的对手进行隐式建模。该算法通过监督学习获得对手的策略特征,并将其与智能体的强化学习模型融合,缓解对手对学习稳定性的影响。在1v1足球环境中的仿真实验表明,提出的算法能够有效预测对手的动作,加快学习收敛速度,提升智能体的对抗水平。
展开更多
关键词
对手动作预测
竞争双深度q网络
(D3
q
N)
智能博弈对抗
深度
强化学习
在线阅读
下载PDF
职称材料
题名
基于竞争双深度Q网络的动态频谱接入
被引量:
3
1
作者
梁燕
惠莹
机构
重庆邮电大学通信与信息工程学院
信号与信息处理重庆市重点实验室
出处
《电讯技术》
北大核心
2022年第12期1715-1721,共7页
基金
国家自然科学基金资助项目(61702066)。
文摘
针对多信道动态频谱接入问题,建立了存在感知错误与接入碰撞的复杂信道场景,提出了一种结合双深度Q网络和竞争Q网络的竞争双深度Q网络学习框架。双深度Q网络将动作的选择和评估分别用不同值函数实现,解决了值函数的过估计问题,而竞争Q网络解决了神经网络结构优化问题。该方案保证每个次要用户根据感知和回报结果做出频谱接入决策。仿真结果表明,在同时存在感知错误和次要用户冲突的多信道情况下,竞争双深度Q网络相比于同类方法具有较好的损失预测模型,其回报更稳定且提高了4%。
关键词
认知无线电
频谱感知
动态频谱接入
深度
强化学习
竞争双深度q网络
Keywords
cognitive radio
spectrum sensing
dynamic spectrum access
deep reinforcement learning
dueling double deep
q
-network
分类号
TN911 [电子电信—通信与信息系统]
在线阅读
下载PDF
职称材料
题名
基于竞争双深度Q网络的频谱感知和接入
被引量:
2
2
作者
梁燕
胡垚林
惠莹
机构
重庆邮电大学通信与信息工程学院
信号与信息处理重庆市重点实验室
出处
《电讯技术》
北大核心
2023年第11期1661-1669,共9页
文摘
认知用户通过频谱感知和接入过程识别频谱状态并占用空闲频谱,可有效利用频谱资源。针对频谱感知中存在感知错误和频谱接入中存在用户碰撞的问题,首先建立多用户多信道模型,设计频谱感知和频谱接入过程;然后通过结合双深度Q网络和竞争Q网络,设计竞争双深度Q网络,解决过估计问题的同时优化网络结构;最后通过智能体与所设计模型中状态、观测、回报和策略的交互,完成使用竞争双深度Q网络解决频谱感知和接入问题的一体化研究。仿真结果表明,相比于已有深度强化学习方法,使用竞争双深度Q网络得到的数值结果更稳定且感知正确率和信道利用率都提高了4%。
关键词
频谱感知
频谱接入
深度
强化学习
竞争双深度q网络
Keywords
spectrum sensing
spectrum access
deep reinforcement learning
dueling double deep
q
-network
分类号
TN911 [电子电信—通信与信息系统]
在线阅读
下载PDF
职称材料
题名
面向B5G多业务场景基于D3QN的双时间尺度网络切片算法
被引量:
8
3
作者
陈赓
齐书虎
沈斐
曾庆田
机构
山东科技大学电子信息工程学院
中国科学院上海微系统与信息技术研究所
出处
《通信学报》
EI
CSCD
北大核心
2022年第11期213-224,共12页
基金
国家自然科学基金资助项目(No.61701284,No.61871370)
国家重点研发计划基金资助项目(No.2019YFE0120700,No.2019YFB1803101)
+5 种基金
山东省自然科学基金资助项目(No.ZR2022MF226)
青岛市应用基础研究计划基金资助项目(No.19-6-2-1-cg)
山东科技大学菁英计划基金资助项目(No.skr21-3-B-048)
中国科学院百人计划基金资助项目(No.E06BRA1001)
山东省泰山学者计划基金资助项目(No.ts20190936)
山东省高校青年创新团队科技支撑计划基金资助项目(No.2019KJN024)。
文摘
为了有效满足不同切片的差异化服务质量需求,面向B5G多业务场景提出了一种基于竞争双深度Q网络(D3QN)的双时间尺度网络切片算法。研究了联合资源切片和调度问题,以归一化处理后的频谱效率和不同切片用户服务质量指数的加权和作为优化目标。在大时间尺度内,SDN控制器根据每种业务的资源需求利用D3QN算法预先分配给不同的切片,然后根据基站负载状态执行基站级资源更新。在小时间尺度内,基站通过轮询调度算法将资源调度到终端用户。仿真结果表明,所提算法在保证切片用户服务质量需求、频谱效率和系统效用方面具有优异的性能。与其他4种基准算法相比,所提算法的系统效用分别提升了3.22%、3.81%、7.48%和21.14%。
关键词
双
时间尺度
资源分配
网络
切片
竞争双深度q网络
系统效用
Keywords
dual time scale
resource allocation
network slicing
dueling double D
q
N
system utility
分类号
TN929.5 [电子电信—通信与信息系统]
在线阅读
下载PDF
职称材料
题名
基于深度强化学习的图书分拣车的路径规划
被引量:
1
4
作者
陈玥
机构
江汉大学图书馆
出处
《现代电子技术》
北大核心
2024年第19期161-168,共8页
基金
湖北省重点研发计划:面向智能工厂的云边端协同数字孪生关键技术研究(2022BAD064)。
文摘
针对图书智能分拣系统中的分拣车路径规划问题,提出一种基于深度强化学习框架和竞争双深度Q网络路径规划算法。将分拣车的路径规划问题构建成马尔可夫决策过程,然后通过结合竞争Q网络和双深度Q网络构建竞争双深度Q网络(D3QN),进而在避免过估计的同时,优化网络结构。最后,通过设计智能代理的状态、动作和奖励函数,并采用动态ε-贪婪算法和衰减式学习率策略,使智能代理能够快速地选择最优动作,缩短完成预定卸载的移动路径,降低碰撞障碍物的概率。仿真结果表明,相比于基于竞争Q网络、双深度Q网络和深度Q网络的路径规划算法,提出的基于D3QN方法所规划的路径更短、碰撞率更低。
关键词
自动分拣
机器人
路径规划
深度
强化学习
竞争双深度q网络
马尔可夫决策
Keywords
automatic sorting
robot
path planning
DRL
D3
q
N
Markov decision
分类号
TN929.5-34 [电子电信—通信与信息系统]
在线阅读
下载PDF
职称材料
题名
混合交通流环境下基于改进强化学习的可变限速控制策略
被引量:
19
5
作者
韩磊
张轮
郭为安
机构
同济大学道路与交通工程教育部重点实验室
同济大学电子与信息工程学院
同济大学中德工程学院
出处
《交通运输系统工程与信息》
EI
CSCD
北大核心
2023年第3期110-122,共13页
基金
国家自然科学基金(71771176,U20A20330)
上海市自然科学基金(20692191200)。
文摘
现有的可变限速(VSL)控制策略灵活性较差,响应速度较慢,对驾驶人遵从度和交通流状态预测模型的依赖性较高,且单纯依靠可变限速标志(VMS)向驾驶人发布限速值,难以在智能网联车辆(CAVs)与人工驾驶车辆(HDVs)混行的交通环境中实现较好的控制效果。对此,结合深度强化学习无需建立交通流预测模型,能自动适应复杂环境,以及CAVs可控性的优势,提出一种混合交通流环境下基于改进竞争双深度Q网络(IPD3QN)的VSL控制策略,即IPD3QN-VSL。首先,将优先经验回放机制引入深度强化学习的竞争双深度Q网络(D3QN)框架中,提升网络的收敛速度和参数更新效率;并提出一种新的自适应ε-贪婪算法克服深度强化学习过程中探索与利用难以平衡的问题,实现探索效率和稳定性的提高。其次,以最小化路段内车辆总出行时间(TTS)为控制目标,将实时交通数据和上个控制周期内的限速值作为IPD3QN算法的输入,构造奖励函数引导算法输出VSL控制区域内执行的动态限速值。该策略通过基础设施到车辆通信(I2V)向CAVs发布限速信息,HDVs则根据VMS上公布的限速值以及周围CAVs的行为变化做出决策。最后,在不同条件下验证IPD3QN-VSL控制策略的有效性,并与无控制情况、反馈式VSL控制和D3QN-VSL控制进行控制效果上的优劣对比。结果表明:在30%渗透率下,所提策略即可发挥显著控制性能,在稳定和波动交通需求情境中均能有效提升瓶颈区域的通行效率,缩小交通拥堵时空范围,与次优的D3QN-VSL控制相比,两种情境中的TTS分别改善了14.46%和10.36%。
关键词
智能交通
可变限速控制
改进
竞争双深度q网络
混合交通流
智能网联车辆
深度
强化学习
Keywords
intelligent transportation
variable speed limit control
improved dueling double deep
q
network
mixed traffic flow
connected and automated vehicles
deep reinforcement learning
分类号
U491.4 [交通运输工程—交通运输规划与管理]
在线阅读
下载PDF
职称材料
题名
基于对手动作预测的智能博弈对抗算法
被引量:
3
6
作者
韩润海
陈浩
刘权
黄健
机构
国防科技大学智能科学学院
出处
《计算机工程与应用》
CSCD
北大核心
2023年第7期190-197,共8页
文摘
智能博弈对抗场景中,多智能体强化学习算法存在“非平稳性”问题,智能体的策略不仅取决于环境,还受到环境中对手(其他智能体)的影响。根据对手与环境的交互信息,预测其策略和意图,并以此调整智能体自身策略是缓解上述问题的有效方式。提出一种基于对手动作预测的智能博弈对抗算法,对环境中的对手进行隐式建模。该算法通过监督学习获得对手的策略特征,并将其与智能体的强化学习模型融合,缓解对手对学习稳定性的影响。在1v1足球环境中的仿真实验表明,提出的算法能够有效预测对手的动作,加快学习收敛速度,提升智能体的对抗水平。
关键词
对手动作预测
竞争双深度q网络
(D3
q
N)
智能博弈对抗
深度
强化学习
Keywords
opponent action prediction
dueling double deep
q
network(D3
q
N)
intelligent game confrontation
deep reinforcement learning
分类号
TP183 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于竞争双深度Q网络的动态频谱接入
梁燕
惠莹
《电讯技术》
北大核心
2022
3
在线阅读
下载PDF
职称材料
2
基于竞争双深度Q网络的频谱感知和接入
梁燕
胡垚林
惠莹
《电讯技术》
北大核心
2023
2
在线阅读
下载PDF
职称材料
3
面向B5G多业务场景基于D3QN的双时间尺度网络切片算法
陈赓
齐书虎
沈斐
曾庆田
《通信学报》
EI
CSCD
北大核心
2022
8
在线阅读
下载PDF
职称材料
4
基于深度强化学习的图书分拣车的路径规划
陈玥
《现代电子技术》
北大核心
2024
1
在线阅读
下载PDF
职称材料
5
混合交通流环境下基于改进强化学习的可变限速控制策略
韩磊
张轮
郭为安
《交通运输系统工程与信息》
EI
CSCD
北大核心
2023
19
在线阅读
下载PDF
职称材料
6
基于对手动作预测的智能博弈对抗算法
韩润海
陈浩
刘权
黄健
《计算机工程与应用》
CSCD
北大核心
2023
3
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部