期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
神经网络增强学习的梯度算法研究 被引量:22
1
作者 徐昕 贺汉根 《计算机学报》 EI CSCD 北大核心 2003年第2期227-233,共7页
针对具有连续状态和离散行为空间的Markov决策问题 ,提出了一种新的采用多层前馈神经网络进行值函数逼近的梯度下降增强学习算法 .该算法采用了近似贪心且连续可微的Boltzmann分布行为选择策略 ,通过极小化具有非平稳行为策略的Bellman... 针对具有连续状态和离散行为空间的Markov决策问题 ,提出了一种新的采用多层前馈神经网络进行值函数逼近的梯度下降增强学习算法 .该算法采用了近似贪心且连续可微的Boltzmann分布行为选择策略 ,通过极小化具有非平稳行为策略的Bellman残差平方和性能指标 ,以实现对Markov决策过程最优值函数的逼近 .对算法的收敛性和近似最优策略的性能进行了理论分析 .通过Mountain Car学习控制问题的仿真研究进一步验证了算法的学习效率和泛化性能 . 展开更多
关键词 神经网络 增强学习 梯度算法 MARKOV决策过程 值函数逼近 机器学习
在线阅读 下载PDF
DCT变换域盲图像水印的自适应检测 被引量:12
2
作者 伯晓晨 沈林成 +1 位作者 常文森 牛轶峰 《计算机研究与发展》 EI CSCD 北大核心 2002年第4期502-510,共9页
检测时无需原始图像的盲数字水印是实用的数字作品版权保护系统的关键技术之一.基于图像DCT交流系数的广义高斯分布模型,推导并实现了一种有效的自适应盲图像水印检测器.通过计算渐进相对效率证明了该检测器具有较高的检测效率.... 检测时无需原始图像的盲数字水印是实用的数字作品版权保护系统的关键技术之一.基于图像DCT交流系数的广义高斯分布模型,推导并实现了一种有效的自适应盲图像水印检测器.通过计算渐进相对效率证明了该检测器具有较高的检测效率.实验结果表明该检测器具有良好的鲁棒性,优于Barni的线性相关检测器. 展开更多
关键词 DCT变换域 盲图像水印 自适应检测 广义高斯分布模型 渐进相对效率 图像压缩 计算机
在线阅读 下载PDF
一种新的盲图像水印检测算法 被引量:18
3
作者 伯晓晨 沈林成 常文森 《计算机学报》 EI CSCD 北大核心 2001年第12期1279-1286,共8页
数字水印是数字作品版权保护的重要技术手段 ,DCT变换域盲图像水印算法是数字水印研究的主流之一 .该文通过分析盲水印检测与私有水印检测在理论模型上的本质区别 ,认为在水印研究中已被广泛使用的线性相关算法在盲水印检测中不再具有... 数字水印是数字作品版权保护的重要技术手段 ,DCT变换域盲图像水印算法是数字水印研究的主流之一 .该文通过分析盲水印检测与私有水印检测在理论模型上的本质区别 ,认为在水印研究中已被广泛使用的线性相关算法在盲水印检测中不再具有普遍适用的理论依据 .进而根据 DCT交流系数的拉普拉斯分布模型 ,提出了一种新的盲图像水印检测算法——符号相关算法 .通过计算渐进相对效率证明了该检测算法的高效性 ,针对典型攻击的实验结果表明该算法具有很好的鲁棒性 . 展开更多
关键词 数字水印 盲图像水印检测算法 图像处理 符号相关算法 版权保护
在线阅读 下载PDF
基于混合策略的轮式机器人路径规划方法 被引量:12
4
作者 王全 王维 +1 位作者 李焱 刘大学 《计算机工程与应用》 CSCD 2014年第4期45-49,共5页
快速扩展随机树方法(RRT)是解决具有非完整性约束的轮式机器人路径规划问题的一种有效途径。RRT能够在规划过程中引入机器人动力学约束,但是当环境中存在大量障碍物时,RRT算法的路径搜索效率将会降低。另一方面,RRT算法不具有最优性,限... 快速扩展随机树方法(RRT)是解决具有非完整性约束的轮式机器人路径规划问题的一种有效途径。RRT能够在规划过程中引入机器人动力学约束,但是当环境中存在大量障碍物时,RRT算法的路径搜索效率将会降低。另一方面,RRT算法不具有最优性,限制了其在轮式机器人路径规划中的应用。针对经典RRT算法的不足,提出一种混合的路径规划策略,首先通过路径导引点扩展多树RRT结构,利用多树RRT的局部探索与合并特性快速寻找可通行的区域范围,利用启发式搜索算法在可通行区域内快速寻找动力学可行的机器人运动轨迹。仿真与实车实验表明,该方法能够快速有效地解决复杂障碍物环境下的机器人路径规划问题。 展开更多
关键词 混合策略 路径规划 快速搜索随机树
在线阅读 下载PDF
基于拉普拉斯分布模型的DCT域图像水印视觉可见性评估 被引量:6
5
作者 伯晓晨 沈林成 常文森 《电子学报》 EI CAS CSCD 北大核心 2003年第1期33-36,共4页
数字水印是数字作品版权保护的重要技术途径之一 .随着数字水印技术的不断应用 ,数字水印产品的测评工作已经引起相关信息安全管理部门的高度重视 ,建立水印测评理论基础的需求越来越迫切 .视觉可见性是数字水印测评的重要技术指标之一 ... 数字水印是数字作品版权保护的重要技术途径之一 .随着数字水印技术的不断应用 ,数字水印产品的测评工作已经引起相关信息安全管理部门的高度重视 ,建立水印测评理论基础的需求越来越迫切 .视觉可见性是数字水印测评的重要技术指标之一 .本文根据DCT交流系数的拉普拉斯分布模型 ,对DCT域的典型水印嵌入算法的视觉可见性进行了评估 ,推导了水印嵌入深度 (拉伸系数 )与信噪比和峰值信噪比之间的理论关系 ,实验结果表明理论估计具有很高的精度 ,误差小于 1分贝 . 展开更多
关键词 DCT域 数字水印 视觉可见性评估 拉普拉斯分布 信噪比 峰值信噪比
在线阅读 下载PDF
策略梯度强化学习中的最优回报基线 被引量:6
6
作者 王学宁 徐昕 +1 位作者 吴涛 贺汉根 《计算机学报》 EI CSCD 北大核心 2005年第6期1021-1026,共6页
尽管策略梯度强化学习算法有较好的收敛性,但是在梯度估计的过程中方差过大,却是该方法在理论和应用上的一个主要弱点.为减小梯度强化学习算法的方差,该文提出一种新的算法———Istate Grbp算法:在策略梯度算法Istate GPOMDP中加入回... 尽管策略梯度强化学习算法有较好的收敛性,但是在梯度估计的过程中方差过大,却是该方法在理论和应用上的一个主要弱点.为减小梯度强化学习算法的方差,该文提出一种新的算法———Istate Grbp算法:在策略梯度算法Istate GPOMDP中加入回报基线,以改进策略梯度算法的学习性能.文中证明了在Istate GPOMDP算法中引入回报基线,不会改变梯度估计的期望值,并且给出了使方差最小的最优回报基线.实验结果表明,和已有算法相比,该文提出的算法通过减小梯度估计的方差,提高了学习效率,加快了学习过程的收敛. 展开更多
关键词 强化学习 策略梯度 部分可观测马氏决策过程 回报基线
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部