期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于多粒度对抗训练的鲁棒跨语言对话系统 被引量:6
1
作者 向露 朱军楠 +1 位作者 周玉 宗成庆 《自动化学报》 EI CAS CSCD 北大核心 2021年第8期1855-1866,共12页
跨语言对话系统是当前国际研究的热点和难点.在实际的应用系统搭建中,通常需要翻译引擎作为不同语言之间对话的桥梁.然而,翻译引擎往往是基于不同训练样本构建的,无论是所在领域,还是擅长处理语言的特性,均与对话系统的实际应用需求存... 跨语言对话系统是当前国际研究的热点和难点.在实际的应用系统搭建中,通常需要翻译引擎作为不同语言之间对话的桥梁.然而,翻译引擎往往是基于不同训练样本构建的,无论是所在领域,还是擅长处理语言的特性,均与对话系统的实际应用需求存在较大的差异,从而导致整个对话系统的鲁棒性差、响应性能低.因此,如何增强跨语言对话系统的鲁棒性对于提升其实用性具有重要的意义.提出了一种基于多粒度对抗训练的鲁棒跨语言对话系统构建方法.该方法首先面向机器翻译构建多粒度噪声数据,分别在词汇、短语和句子层面生成相应的对抗样本,之后利用多粒度噪声数据和干净数据进行对抗训练,从而更新对话系统的参数,进而指导对话系统学习噪声无关的隐层向量表示,最终达到提升跨语言对话系统性能的目的.在公开对话数据集上对两种语言的实验表明,所提出的方法能够显著提升跨语言对话系统的性能,尤其提升跨语言对话系统的鲁棒性. 展开更多
关键词 多粒度噪声 对抗训练 鲁棒性 跨语言 对话系统
在线阅读 下载PDF
面向中文微博的情绪-原因对抽取数据集构建及分析研究
2
作者 陈仲豪 朱军楠 +2 位作者 周玉 向露 宗成庆 《中文信息学报》 CSCD 北大核心 2024年第10期135-143,共9页
情绪-原因对抽取(ECPE)任务旨在从给定文档中同步抽取情绪子句及其对应的原因子句,该任务在新闻领域得到了广泛研究。然而,社交媒体领域ECPE任务的研究相对较少,主要原因在于缺少适用的数据集。与新闻领域相比,该领域更具挑战性和实用性... 情绪-原因对抽取(ECPE)任务旨在从给定文档中同步抽取情绪子句及其对应的原因子句,该任务在新闻领域得到了广泛研究。然而,社交媒体领域ECPE任务的研究相对较少,主要原因在于缺少适用的数据集。与新闻领域相比,该领域更具挑战性和实用性:(1)在社交媒体领域,情绪表达更加多样化、非规范化;(2)以往的研究忽略了情绪造成的主观意图,其对于决策分析有很重要的价值。针对以上问题,该文首先构建了一个面向中文微博的情绪原因抽取数据集,并对其中5009条数据进行了人工标注。该数据集具备以下特点:(1)收录了隐喻、反讽等形式的情绪表达,标注了细粒度的情绪类别;(2)定义了三种类型的意图,并标注了意图子句;(3)当前规模最大的中文情绪-原因对抽取数据集。结合数据集特点,该文提出一种融合情绪类别和意图信息的情绪-原因对抽取方法,并将该方法与多个ECPE主流方法进行了比较分析。实验结果表明,该文方法可以更有效提升社交媒体领域情绪-原因对抽取的效果。 展开更多
关键词 情绪-原因对抽取 中文社交媒体 微博数据集
在线阅读 下载PDF
融入置信度的文本图像翻译研究
3
作者 伍凌辉 马聪 +3 位作者 周玉 韩旭 赵阳 张亚萍 《中文信息学报》 CSCD 北大核心 2024年第12期64-73,共10页
文本图像翻译旨在将嵌在图像中的源端语言文本翻译成目标语言。文本图像翻译系统通常由相互独立的光学字符识别(Optical Character Recognition,OCR)和机器翻译(Machine Translation,MT)模型级联组成。OCR模型将文本图像识别成转录文本... 文本图像翻译旨在将嵌在图像中的源端语言文本翻译成目标语言。文本图像翻译系统通常由相互独立的光学字符识别(Optical Character Recognition,OCR)和机器翻译(Machine Translation,MT)模型级联组成。OCR模型将文本图像识别成转录文本,MT模型将转录文本翻译成目标语言。由于OCR模型转录文本存在噪声,而MT模型对噪声文本表现不佳,文本图像翻译系统性能远不如纯文本机器翻译系统。为缓解噪声文本带来的问题,鲁棒性机器翻译主要采用以下两种方法:(1)使用合成噪声文本,以模拟OCR转录带来的噪声;(2)利用干净文本和噪声文本的对比学习,拉近噪声文本和干净文本的分布。未能考虑以下问题:(1)忽视来自OCR模型的置信度信息,未能考虑OCR和MT系统的有效融合;(2)仅采用合成噪声,类型单一,无法覆盖实际噪声类型;(3)仅采用句子粒度的粗粒度对比损失,忽略细粒度的词的对比信息。为解决上述问题,该文提出一种融合置信度信息的文本图像翻译方法,充分利用转录文本中每个字符输出的概率分布,得到每个词的置信度信息,使级联式文本图像翻译系统中的OCR模型和机器翻译模型产生更有效的融合;同时针对OCR转录文本的噪声特点,设计了一种能提供词粒度的对比信息的监督文本,进一步提升模型性能。实验表明,该文所提方法在中译英以及英中文本图像翻译任务上相较于传统的管道式模型得到了显著提升。 展开更多
关键词 置信度 文本图像翻译 鲁棒性神经机器翻译
在线阅读 下载PDF
基于BERT的中文APP隐私政策自动分析方法
4
作者 付西娜 赵阳 +1 位作者 周玉 翟飞飞 《中文信息学报》 北大核心 2025年第3期169-180,共12页
APP隐私政策的规范制定和合法声明是保障用户权益的关键。但由于APP隐私政策文本普遍篇幅较长、可读性差,政策中声明的条款是否完善且规范成为一个难以追踪的难题,而人工对隐私政策文本进行审核分析耗时耗力。为此,该文研究实现了面向中... APP隐私政策的规范制定和合法声明是保障用户权益的关键。但由于APP隐私政策文本普遍篇幅较长、可读性差,政策中声明的条款是否完善且规范成为一个难以追踪的难题,而人工对隐私政策文本进行审核分析耗时耗力。为此,该文研究实现了面向中文APP隐私政策文本的自然语言处理方法,包括抽取隐私政策文本中的关键信息和对隐私政策文本中的段落进行主题分类。该文首先提出了一种多特征融合的段落主题分类方法,用于对隐私政策文本中的段落进行主题划分,然后引入多任务学习机制,构建了基于BERT的多任务微调联合学习模型,用于抽取隐私政策中的关键信息,并同时对段落进行主题分类。实验结果表明,该文所提方法和模型有效提升了两个任务的识别效果。 展开更多
关键词 中文隐私政策 主题分类 关键信息抽取
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部