期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于DQN的开放域多轮对话策略学习 被引量:6
1
作者 宋皓宇 张伟男 刘挺 《中文信息学报》 CSCD 北大核心 2018年第7期99-108,136,共11页
有效地进行多轮对话是开放域人机对话系统的主要目标之一。目前的神经网络对话生成模型在开放域多轮对话过程中存在着容易产生万能回复、很快陷入死循环的问题;而已有的多轮对话研究工作存在着没有考虑未来对话走向的问题。借鉴强化学... 有效地进行多轮对话是开放域人机对话系统的主要目标之一。目前的神经网络对话生成模型在开放域多轮对话过程中存在着容易产生万能回复、很快陷入死循环的问题;而已有的多轮对话研究工作存在着没有考虑未来对话走向的问题。借鉴强化学习方法考虑全局的视角,该文利用深度强化学习算法DQN(deep Q-network),提出了使用深度价值网络对每一轮的候选句子进行评估,并选择未来收益最大的而非生成概率最大的句子作为回复的多轮对话策略学习方法。实验结果表明,该文提出的方法将多轮对话的平均对话轮数提高了两轮,同时在主观对比评价指标上获胜比例高出了45%。 展开更多
关键词 多轮对话 对话策略 强化学习
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部