期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
基于Transformer的多模态级联文档布局分析网络
1
作者 温绍杰 吴瑞刚 +1 位作者 冯超文 刘英莉 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2024年第2期317-324,369,共9页
针对现有方法在文本和图像模态的预训练目标上存在嵌入不对齐,文档图像采用基于卷积神经网络(CNN)的结构进行预处理,流程复杂,模型参数量大的问题,提出基于Transformer的多模态级联文档布局分析网络(MCOD-Net).设计词块对齐嵌入模块(WAE... 针对现有方法在文本和图像模态的预训练目标上存在嵌入不对齐,文档图像采用基于卷积神经网络(CNN)的结构进行预处理,流程复杂,模型参数量大的问题,提出基于Transformer的多模态级联文档布局分析网络(MCOD-Net).设计词块对齐嵌入模块(WAEM),实现文本和图像模态预训练目标的对齐嵌入,使用掩码语言建模(MLM)、掩码图像建模(MIM)和词块对齐(WPA)进行预训练,以促进模型在文本和图像模态上的表征学习能力.直接使用文档原始图像,用图像块的线性投影特征来表示文档图像,简化模型结构,减小了模型参数量.实验结果表明,所提模型在PubLayNet公开数据集上的平均精度均值(mAP)达到95.1%.相较于其他模型,整体性能提升了2.5%,泛化能力突出,综合效果最优. 展开更多
关键词 文档布局分析 词块对齐嵌入 TRANSFORMER MCOD-Net模型
在线阅读 下载PDF
面向统计机器翻译的重对齐方法研究 被引量:5
2
作者 肖桐 李天宁 +2 位作者 陈如山 朱靖波 王会珍 《中文信息学报》 CSCD 北大核心 2010年第1期110-116,共7页
词对齐是统计机器翻译中的重要技术之一。该文提出了一种重对齐方法,它在IBM models获得的正反双向词对齐的基础上,确定出正反双向对齐不一致的部分。之后,对双向词对齐不一致的部分进行重新对齐以得到更好的对称化的词对齐结果。此外,... 词对齐是统计机器翻译中的重要技术之一。该文提出了一种重对齐方法,它在IBM models获得的正反双向词对齐的基础上,确定出正反双向对齐不一致的部分。之后,对双向词对齐不一致的部分进行重新对齐以得到更好的对称化的词对齐结果。此外,该文提出的方法还可以利用大规模单语语料来强化对齐结果。实验结果表明,相比在统计机器翻译中广泛使用的基于启发信息的词对齐对称化方法,该文提出的方法可以使统计机器翻译系统得到更高的翻译准确率。 展开更多
关键词 人工智能 机器翻译 统计机器翻译 词对齐 重对齐 IBMmodels
在线阅读 下载PDF
面向新闻语料的中日命名实体翻译抽取 被引量:3
3
作者 尹存燕 黄书剑 +1 位作者 戴新宇 陈家骏 《小型微型计算机系统》 CSCD 北大核心 2015年第6期1393-1397,共5页
命名实体翻译可以有效地提高跨语言信息检索、统计机器翻译等系统的性能.双语新闻语料包含了丰富的命名实体,利用统计方法可以从中抽取出命名实体翻译.基于中日双语新闻语料,对中日命名实体的翻译特征进行了分析,基于这些特征,提出一种... 命名实体翻译可以有效地提高跨语言信息检索、统计机器翻译等系统的性能.双语新闻语料包含了丰富的命名实体,利用统计方法可以从中抽取出命名实体翻译.基于中日双语新闻语料,对中日命名实体的翻译特征进行了分析,基于这些特征,提出一种中日双语命名实体翻译自动抽取的方法,该方法融合了中日汉字翻译概率、片假名词汇和中文音译词汇的拼音相似度以及双语词汇共现等特征.实验表明本文方法充分利用这些特征,在语料规模不大的情况下,也可以取得较好的效果. 展开更多
关键词 命名实体 双语语料 对齐模型 拼音相似度 词汇共现
在线阅读 下载PDF
融合特征约束模型的纳西-汉语双语词语对齐算法 被引量:2
4
作者 张涛 余正涛 +1 位作者 郭剑毅 曹先彬 《西安交通大学学报》 EI CAS CSCD 北大核心 2011年第10期48-53,共6页
针对纳西语、汉语因句法结构差异较大而导致双语词语自动对齐较为困难的问题,提出一种融合特征约束模型的纳西-汉语双语词语对齐算法.首先在语料中统计纳西-汉语词语区间扭曲和位置转换特性,并由此建立2个双语词语对齐的特征约束模型;... 针对纳西语、汉语因句法结构差异较大而导致双语词语自动对齐较为困难的问题,提出一种融合特征约束模型的纳西-汉语双语词语对齐算法.首先在语料中统计纳西-汉语词语区间扭曲和位置转换特性,并由此建立2个双语词语对齐的特征约束模型;然后将提出的特征约束模型融入词语对齐的对数线性模型框架,并结合最小错误率算法训练模型参数;最终搜索出最佳的词语对齐结果.实验以IBM Model3为词语对齐比较模型,结果表明,该双语词语对齐算法可以使纳西-汉语词语的对齐准确率提升21.9%. 展开更多
关键词 词语对齐 纳西 汉语 特征约束模型
在线阅读 下载PDF
机器译文自动评价中基于IHMM的近义词匹配方法研究 被引量:2
5
作者 李茂西 徐凡 王明文 《中文信息学报》 CSCD 北大核心 2016年第4期117-123,共7页
机器译文的自动评价推动着机器翻译技术的快速发展与应用,在其研究中的一个关键问题是如何自动的识别并匹配机器译文与人工参考译文之间的近义词。该文探索以源语言句子作为桥梁,利用间接隐马尔可夫模型(IHMM)来对齐机器译文与人工参考... 机器译文的自动评价推动着机器翻译技术的快速发展与应用,在其研究中的一个关键问题是如何自动的识别并匹配机器译文与人工参考译文之间的近义词。该文探索以源语言句子作为桥梁,利用间接隐马尔可夫模型(IHMM)来对齐机器译文与人工参考译文,匹配两者之间的近义词,提高自动评价方法与人工评价方法的相关性。在LDC2006T04语料和WMT数据集上的实验结果表明,该方法与人工评价的系统级别相关性和句子级别相关性不仅一致的优于在机器翻译中广泛使用的BLEU、NIST和TER方法,而且优于使用词根信息和同义词典进行近义词匹配的METEOR方法。 展开更多
关键词 机器译文自动评价 近义词匹配 间接隐马尔可夫模型 单语句子词对齐 相关性
在线阅读 下载PDF
一种基于改进隐马尔克夫模型的词语对齐方法 被引量:2
6
作者 刘颖 姜巍 《中文信息学报》 CSCD 北大核心 2014年第2期51-55,共5页
该文在基本隐马尔克夫模型的基础之上,利用句法知识来改进词语对齐,把英语的短语结构树距离和基本隐马尔克夫模型相结合进行词语对齐。与基本隐马尔克夫模型相比,这个模型可以降低词语对齐的错误率,并且提高统计机器翻译系统BLEU值,从... 该文在基本隐马尔克夫模型的基础之上,利用句法知识来改进词语对齐,把英语的短语结构树距离和基本隐马尔克夫模型相结合进行词语对齐。与基本隐马尔克夫模型相比,这个模型可以降低词语对齐的错误率,并且提高统计机器翻译系统BLEU值,从而提高机器翻译质量。 展开更多
关键词 短语结构树距离 隐马尔克夫模型 词语对齐 BLEU值
在线阅读 下载PDF
基于跨社交媒体检索的微博消费对象识别 被引量:3
7
作者 付博 刘挺 《计算机科学与探索》 CSCD 北大核心 2015年第10期1247-1255,共9页
目前,微博消费意图识别问题成为新的研究热点。然而,已有工作主要判断微博是否具有商业意图,很少研究消费意图内容中消费对象的识别问题,而消费对象的识别是精确地进行商业推荐的关键,因此对其进行研究具有重要意义。微博内容较短且用... 目前,微博消费意图识别问题成为新的研究热点。然而,已有工作主要判断微博是否具有商业意图,很少研究消费意图内容中消费对象的识别问题,而消费对象的识别是精确地进行商业推荐的关键,因此对其进行研究具有重要意义。微博内容较短且用户用语不规范,基于词典匹配与依存关系分析的方法,在识别召回率上难以得到满意的效果。提出了一种基于跨媒体伪相关反馈的方法。首先分析具有消费意图微博中的关键词,而后将其视为查询提交给搜索引擎进行搜索,最后从搜索结果中提取消费意图对象。实验结果表明,提出的方法显著地优于基准方法。 展开更多
关键词 消费意图 消费对象 跨社交媒体检索 信息抽取 单语词对齐模型 社交媒体
在线阅读 下载PDF
基于子词的历史典籍术语对齐方法 被引量:1
8
作者 车超 郑晓军 《中文信息学报》 CSCD 北大核心 2016年第3期46-51,共6页
由于历史典籍术语存在普遍的多义性且缺少古汉语分词算法,使用基于双语平行语料的对齐方法来自动获取典籍术语翻译对困难重重。针对上述问题,该文提出一种基于子词的最大熵模型来进行典籍术语对齐。该方法结合两种统计信息抽取频繁在一... 由于历史典籍术语存在普遍的多义性且缺少古汉语分词算法,使用基于双语平行语料的对齐方法来自动获取典籍术语翻译对困难重重。针对上述问题,该文提出一种基于子词的最大熵模型来进行典籍术语对齐。该方法结合两种统计信息抽取频繁在一起出现的字作为子词,使用子词对典籍进行分词,解决了缺少古汉语分词算法的问题。针对典籍术语的多义性,根据典籍术语的音译模式制定音译特征函数,并结合其他特征使用最大熵模型来确定术语的翻译。在《史记》双语平行语料上的实验表明,使用子词的方法远远优于未使用子词的方法,而结合三种特征的最大熵模型能有效的提高术语对齐的准确率。 展开更多
关键词 子词 术语对齐 最大熵模型 音译特征
在线阅读 下载PDF
基于统计的蒙汉机器翻译中词对齐方法研究 被引量:3
9
作者 苏依拉 赵亚平 牛向华 《中文信息学报》 CSCD 北大核心 2018年第6期44-51,共8页
蒙古语属于小语种,蒙古语到汉语机器翻译相关研究进展缓慢。所以,实现高质量的蒙汉机器翻译对我国少数民族地区信息化发展有着重要意义。其中,词语对齐对机器翻译质量起着至关重要的作用。该文提出了一种基于蒙古语切分的词干词缀为基... 蒙古语属于小语种,蒙古语到汉语机器翻译相关研究进展缓慢。所以,实现高质量的蒙汉机器翻译对我国少数民族地区信息化发展有着重要意义。其中,词语对齐对机器翻译质量起着至关重要的作用。该文提出了一种基于蒙古语切分的词干词缀为基本单位的蒙汉机器翻译词对齐方法。该方法利用词干词缀表和逆向最大匹配算法来实现蒙古语句子词干词缀的切分。实验结果表明对蒙古语进行词干词缀的切分能够显著提高对数线性词对齐模型的对齐质量。 展开更多
关键词 词对齐 IBM模型 词干词缀切分 对数线性模型
在线阅读 下载PDF
一种基于词对齐的中文深层语义解析模型
10
作者 郑晓东 胡汉辉 +1 位作者 赵林度 吕永涛 《计算机工程与应用》 CSCD 北大核心 2017年第20期8-13,共6页
语义解析是指将自然语言句子转化成便于机器理解和推理的意义形式。近年来英文语义解析的研究取得了很大进展。然而,中文语义解析的相关工作则相对较少。中文和英文之间存在一定的差异,适用于英文的语义解析方法不一定适合中文。因此,... 语义解析是指将自然语言句子转化成便于机器理解和推理的意义形式。近年来英文语义解析的研究取得了很大进展。然而,中文语义解析的相关工作则相对较少。中文和英文之间存在一定的差异,适用于英文的语义解析方法不一定适合中文。因此,针对中文的语言特点,提出一种基于词对齐的中文语义解析方法,将中文句子转化成其相应的意义表示看作是一个机器翻译的过程。首先将英文语义解析方法中常用的训练数据集GEOQUERY转化成中文数据集,数据集中每条训练数据包括一个中文句子及其正确的意义表示。然后利用词对齐模型来获取由中文自然语言字符串及其相应的意义表示所组成的双语词典。最后通过学习一个概率估计模型来确定最终的语义解析模型。实验结果表明,WACSP有较高的精确度和覆盖率。 展开更多
关键词 自然语言处理 语义解析 词对齐模型
在线阅读 下载PDF
基于动态词对齐的交互式机器翻译 被引量:5
11
作者 马斌 蔡东风 +2 位作者 季铎 叶娜 吴闯 《中文信息学报》 CSCD 北大核心 2017年第4期44-49,共6页
在传统的机器翻译(machine translation,MT)与计算机辅助翻译(computer aided translation,CAT)中,译员与翻译引擎之间的交互受到很大限制,于是产生了交互式机器翻译(interactive machine translation,IMT)技术。但传统的模型只考虑当... 在传统的机器翻译(machine translation,MT)与计算机辅助翻译(computer aided translation,CAT)中,译员与翻译引擎之间的交互受到很大限制,于是产生了交互式机器翻译(interactive machine translation,IMT)技术。但传统的模型只考虑当前源语与部分翻译的目标语的信息,没有将用户交互后的对齐信息加入到之后的预测模型中。该文基于词预测交互式机器翻译的研究思路,将用户交互翻译过程中的鼠标点选行为转化为中间译文的词对齐信息,进而在翻译交互过程中实现了对译文的动态词对齐标注,并在词对齐信息和输入译文的约束下提高了传统词预测的准确性。 展开更多
关键词 交互式机器翻译 词对齐 预测模型
在线阅读 下载PDF
基于统计机器翻译的汉维词对齐研究 被引量:5
12
作者 刘建明 吐尔根.依不拉音 艾山.吾买尔 《计算机应用与软件》 CSCD 2011年第4期57-59,90,共4页
描述了一个基于统计机器翻译的汉维词对齐系统。系统处理过程分为两个模块:预处理和词对齐。预处理过程包括汉文文本预处理和维吾尔文文本预处理,其中维吾尔文文本预处理过程为:首先将维吾尔文转换成拉丁维文,然后将拉丁维文中个别字符... 描述了一个基于统计机器翻译的汉维词对齐系统。系统处理过程分为两个模块:预处理和词对齐。预处理过程包括汉文文本预处理和维吾尔文文本预处理,其中维吾尔文文本预处理过程为:首先将维吾尔文转换成拉丁维文,然后将拉丁维文中个别字符替换为无歧义的字符。词对齐实现过程:首先利用IBM Model1-3,然后结合Och等人提出的启发式的思路进行优化,构建基于统计机器翻译的汉维词对齐系统。实验结果表明此系统可行。 展开更多
关键词 词对齐 IBM model1-3 启发式优化
在线阅读 下载PDF
基于对偶分解的词语对齐搜索算法 被引量:2
13
作者 沈世奇 刘洋 孙茂松 《中文信息学报》 CSCD 北大核心 2013年第4期9-15,共7页
词语对齐旨在计算平行文本中词语之间的对应关系,对机器翻译、双语词典构造等多项自然语言处理任务都具有重要的影响。虽然近年来词语对齐在建模和训练算法方面取得了显著的进展,但搜索算法往往都采用简单的贪心策略,面临着搜索错误较... 词语对齐旨在计算平行文本中词语之间的对应关系,对机器翻译、双语词典构造等多项自然语言处理任务都具有重要的影响。虽然近年来词语对齐在建模和训练算法方面取得了显著的进展,但搜索算法往往都采用简单的贪心策略,面临着搜索错误较大的问题。该文提出了一种基于对偶分解的词语对齐搜索算法,将复杂问题分解为两个相对简单的子问题,迭代求解直至收敛于最优解。由于对偶分解能够保证求解的收敛性和最优性,该文提出的搜索算法在2005年度863计划词语对齐评测数据集上显著超过GIZA++和判别式词语对齐系统,对齐错误率分别降低4.2%和1.1%。 展开更多
关键词 词语对齐 判别式模型 搜索算法 对偶分解
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部