期刊文献+
共找到42篇文章
< 1 2 3 >
每页显示 20 50 100
文本问答中基于双向叠加注意力的证据区间预测
1
作者 吐尔地·托合提 罗长虹 艾斯卡尔·艾木都拉 《计算机工程与科学》 北大核心 2025年第8期1470-1482,共13页
文本问答通常仅依靠文本与问题的单向匹配关系来定位证据区间并作答,在面临远端干扰及多处答案词等语义困难时难以捕捉精短证据区间。针对此问题,提出一种基于双向叠加注意力机制的证据区间预测模型ESP-BSA。首先,将问题与文本进行交叉... 文本问答通常仅依靠文本与问题的单向匹配关系来定位证据区间并作答,在面临远端干扰及多处答案词等语义困难时难以捕捉精短证据区间。针对此问题,提出一种基于双向叠加注意力机制的证据区间预测模型ESP-BSA。首先,将问题与文本进行交叉匹配来丰富隐式交互的文本语义;其次,根据证据分布互异性设计软证据标签对来表示前向和后向证据得分;最后,对序列中每个位置的证据得分双向叠加以获得更符合上下文语境要求的证据区间。实验结果表明,所提方法在Span-F1,Span-EM等评价指标上较基线模型有所提升,证实了其在复杂语境中能够有效提高证据区间预测精确度和问答准确性。 展开更多
关键词 文本问答 证据区间 注意力机制 双向叠加 软证据标签
在线阅读 下载PDF
场景文字识别技术研究综述 被引量:20
2
作者 王德青 吾守尔·斯拉木 许苗苗 《计算机工程与应用》 CSCD 北大核心 2020年第18期1-15,共15页
对文字检测和识别技术进行了全面的介绍。介绍了自然场景文字识别技术的研究背景、应用领域、技术难点等;介绍了场景文字识别的预处理技术及流程,介绍了近年来出现的基于深度学习的通用检测网络、维吾尔文和中英文的深度学习文字检测网... 对文字检测和识别技术进行了全面的介绍。介绍了自然场景文字识别技术的研究背景、应用领域、技术难点等;介绍了场景文字识别的预处理技术及流程,介绍了近年来出现的基于深度学习的通用检测网络、维吾尔文和中英文的深度学习文字检测网络、场景文字识别深度学习网络、端到端场景文字检测与识别深度学习网络,并总结了各类网络的结构特点、优势、局限性、应用场景以及实现成本,接着进行了综合分析;最后介绍了公开数据集,并探讨了场景文字识别技术的发展趋势及可能的研究方向。 展开更多
关键词 场景文字检测 文本识别 深度学习 端到端检测识别
在线阅读 下载PDF
基于MEGA网络和分层预测的标点恢复方法
3
作者 张文博 黄浩 +1 位作者 吴迪 唐敏杰 《计算机工程》 CAS CSCD 北大核心 2024年第12期396-406,共11页
标点恢复又称标点预测,是指对一段没有标点的文本添加合适的标点,以提高文本的可读性,是一项经典的自然语言处理任务。随着预训练模型的发展和标点恢复研究的深入,标点恢复任务的性能在不断提升。然而,基于Transformer结构的预训练模型... 标点恢复又称标点预测,是指对一段没有标点的文本添加合适的标点,以提高文本的可读性,是一项经典的自然语言处理任务。随着预训练模型的发展和标点恢复研究的深入,标点恢复任务的性能在不断提升。然而,基于Transformer结构的预训练模型在提取长序列输入的局部信息方面存在局限性,不利于最终标点符号的预测。此外,以往的研究将标点标签视为要预测的符号,忽略了不同标点的场景属性和标点间的关系。为了解决这些问题,引入移动平均门控注意力(MEGA)网络作为辅助模块,以增强模型对局部信息的提取能力。同时,构建分层预测模块,充分利用不同标点符号的场景属性和标点间的关系进行最终的分类。使用多种基于Transformer结构的预训练模型在不同语言的数据集上进行实验,在英文标点数据集IWSLT上的实验结果表明,在多数预训练模型上应用MEGA模块和分层预测模块都能获得性能增益,使用DeBERTaV3 xlarge在IWSLT的REF测试集上的F1值达到85.5%,相比于基线提升了1.2个百分点。此外,在中文标点数据集的实验中也取得较高的精度。 展开更多
关键词 标点恢复 自然语言处理 预训练模型 Transformer结构 分层预测
在线阅读 下载PDF
融合方面语义和网格标记的多语言意见元组抽取
4
作者 古文霞 早克热·卡德尔 +1 位作者 杨乾 艾山·吾买尔 《计算机科学》 CSCD 北大核心 2024年第4期324-333,共10页
面向方面的细粒度意见抽取(Aspect-oriented Fine-grained Opinion Extraction,AFOE)任务的目的是以意见对的形式抽取文本评论中的方面和意见词或者再抽取情感极性,形成意见三元组。以往的研究通常以管道方式抽取意见元素,容易出现错误... 面向方面的细粒度意见抽取(Aspect-oriented Fine-grained Opinion Extraction,AFOE)任务的目的是以意见对的形式抽取文本评论中的方面和意见词或者再抽取情感极性,形成意见三元组。以往的研究通常以管道方式抽取意见元素,容易出现错误传播的问题,而且大多数只关注方面词和意见词的单个子任务抽取,忽略了不同意见元素之间的相互影响和指示信息,导致意见挖掘任务不完整。此外,面向中文的意见元素抽取任务的研究较少。针对以上问题,文中提出了融合方面语义和网格标记的多语言意见元组抽取模型。首先,使用向内LSTM(Inward-LSTM)和向外LSTM(Outward-LSTM)编码方面词及其对应的上下文信息建立方面和候选意见词的关联,再结合全局信息生成特定方面语义特征的上下文表示,有利于提高下游意见元素抽取的性能。其次,使用网格标记方案的推理策略,利用方面和意见词之间的依赖指示信息进行更准确的抽取,以端到端的方式处理AFOE任务。相比基线模型,对于方面意见对抽取任务,改进的模型在中英文数据集上的F1值提高了0.89%~4.11%,对于三元组抽取任务提高了1.36%~3.11%,实验结果表明,改进的模型能有效地对中英文评论的意见元素进行抽取,性能显著优于基线模型。 展开更多
关键词 方面意见对抽取 三元组抽取 网格标记方案 方面语义 面向方面的细粒度意见抽取
在线阅读 下载PDF
基于字符归一化双投影互相关性匹配识别算法 被引量:8
5
作者 万金娥 袁保社 +1 位作者 谷朝 米尔沙力江.沙吾提 《计算机应用》 CSCD 北大核心 2013年第3期645-647,716,共4页
针对印刷体维吾尔文文字识别系统中的字符识别正确率较低这一难点问题,采用对字符图像进行横向扫描和纵向扫描生成行和列投影图,结合三级分类,将目标字符与对应分类中的字符的双投影图逐一归一化并进行相关性均值计算的方法,取均值最大... 针对印刷体维吾尔文文字识别系统中的字符识别正确率较低这一难点问题,采用对字符图像进行横向扫描和纵向扫描生成行和列投影图,结合三级分类,将目标字符与对应分类中的字符的双投影图逐一归一化并进行相关性均值计算的方法,取均值最大的字符作为最佳匹配识别结果,实现了对维文字符的识别。实验证明这种基于字符归一化双投影互相关性匹配识别算法方法抗干扰性强,简单易行,匹配精度高,使得印刷体维吾尔文字字符识别的正确率有了进一步提高。 展开更多
关键词 印刷体维吾尔文 双积分投影图 投影图归一化 互相关性 模板匹配识别
在线阅读 下载PDF
一种提高维吾尔语-汉语词语对齐的方法研究 被引量:9
6
作者 麦热哈巴·艾力 王志洋 吐尔根·依布拉音 《小型微型计算机系统》 CSCD 北大核心 2012年第11期2551-2555,共5页
维吾尔语是典型的粘着性语言,其复杂的形态以及众多的词缀影响维吾尔语-汉语词语对齐的质量.本文提出对维吾尔语词进行形态分析并词干与词缀分离,再进行对齐;并根据维吾尔语遵循语音和谐规律的特点,对维吾尔语词缀的变体采用统一的表示... 维吾尔语是典型的粘着性语言,其复杂的形态以及众多的词缀影响维吾尔语-汉语词语对齐的质量.本文提出对维吾尔语词进行形态分析并词干与词缀分离,再进行对齐;并根据维吾尔语遵循语音和谐规律的特点,对维吾尔语词缀的变体采用统一的表示方法,使得词缀呈现相同的形式.通过以上方法欲达到抑制维汉词语对齐中数据稀疏现象.本文利用此方法处理了新疆多语种信息技术重点实验室提供的维汉双语语料,再利用GIZA++进行对齐,试验结果表明,此方法对词语对齐效果起到了明显的积极作用,而且对维汉机器翻译的质量也有显著的提高. 展开更多
关键词 词对齐 维吾尔语 形态分析 GIZA++
在线阅读 下载PDF
一种基于知识表示的多步攻击规划问题描述模型 被引量:4
7
作者 努尔布力 解男男 +2 位作者 刘志宇 胡亮 柴胜 《电子学报》 EI CAS CSCD 北大核心 2013年第6期1101-1107,共7页
网络入侵检测中,攻击的形式越来越多样化和复杂化,网络多步攻击成为当前攻击的主要形式.智能规划最早用于人工智能领域,将一个领域内的知识形成规划推理时的规划域,将待求解的问题对应于规划问题.将智能规划应用于多步攻击领域,用以对... 网络入侵检测中,攻击的形式越来越多样化和复杂化,网络多步攻击成为当前攻击的主要形式.智能规划最早用于人工智能领域,将一个领域内的知识形成规划推理时的规划域,将待求解的问题对应于规划问题.将智能规划应用于多步攻击领域,用以对多步攻击进行识别,并以此为基础,提出一种基于知识表示的多步攻击规划问题描述模型,用以提供解决复杂网络攻击数据的形式化描述问题的一种探索.实验中规划问题采用PDDL语言进行描述,对所提模型进行可用性验证. 展开更多
关键词 多步攻击 智能规划 安全规划问题 PDDL
在线阅读 下载PDF
基于HMM的联机手写哈萨克文字的识别研究 被引量:2
8
作者 达吾勒·阿布都哈依尔 古丽拉·阿东别克 《计算机工程与应用》 CSCD 2014年第1期145-148,共4页
以基于隐马尔可夫模型和统计语言模型的研究作为基础,着重研究联机手写哈萨克文的切分技术、连体段分类和特征参数的独特提取技术。系统先将提取延迟笔划后的连体段主笔划作为HMM识别器的输入,再根据被识别的主笔划的编号和延迟笔划标... 以基于隐马尔可夫模型和统计语言模型的研究作为基础,着重研究联机手写哈萨克文的切分技术、连体段分类和特征参数的独特提取技术。系统先将提取延迟笔划后的连体段主笔划作为HMM识别器的输入,再根据被识别的主笔划的编号和延迟笔划标记从连体段分类词典中查找,找到对应的连体段识别结果。通过去除连体段延迟笔画的方法可以有效地减少需建立的模型数目,进而提高识别速度和避免由字符切分所带来的问题。 展开更多
关键词 哈萨克文 联机手写 隐马尔可夫模型 连体段 连体段分类 Hidden MARKOV Model(HMM)
在线阅读 下载PDF
维吾尔语多词表达抽取方法研究 被引量:3
9
作者 麦热哈巴.艾力 阿孜古丽.夏力甫 吐尔根.依布拉音 《计算机工程与应用》 CSCD 2014年第8期26-30,共5页
多词表达是特殊的语言现象,一般由多个词构成来表示一个意义,语料中常出现在一起。多词表达因是特殊的单元,其抽取在自然语言处理的很多领域有着非常重要的作用。讨论了目前常见的三种统计方法即互信息、对数似然比以及卡方等在维吾尔... 多词表达是特殊的语言现象,一般由多个词构成来表示一个意义,语料中常出现在一起。多词表达因是特殊的单元,其抽取在自然语言处理的很多领域有着非常重要的作用。讨论了目前常见的三种统计方法即互信息、对数似然比以及卡方等在维吾尔语多词表达抽取方面的影响。根据维吾尔语的特点,将词干作为一项特征加到抽取方法中。语料的选择上考虑了覆盖面及领域,并探讨了它们对抽取方法的影响。 展开更多
关键词 多词表达 互信息 对数似然比 卡方 维吾尔语
在线阅读 下载PDF
基于WebGIS的维吾尔文天气信息服务 被引量:3
10
作者 郑江华 阿地力肉孜 《计算机工程》 CAS CSCD 2012年第6期288-290,共3页
针对维吾尔语用户对基于地理信息技术的服务需求,提出一种基于WebGIS的维吾尔文天气信息服务系统。以天气信息服务为应用领域,集成Google Maps API地图服务组件与实时Yahoo Weather RSS天气信息,利用网页自定义字体技术解决维吾尔文的... 针对维吾尔语用户对基于地理信息技术的服务需求,提出一种基于WebGIS的维吾尔文天气信息服务系统。以天气信息服务为应用领域,集成Google Maps API地图服务组件与实时Yahoo Weather RSS天气信息,利用网页自定义字体技术解决维吾尔文的表达问题,使用VS2005开发工具实现系统。应用结果表明,该系统能提供多种内置工具,实现维吾尔文天气信息的实时查询。 展开更多
关键词 地理信息系统 封装 信息查询 天气信息
在线阅读 下载PDF
汉维时间数字和量词的识别与翻译研究 被引量:8
11
作者 阿依古丽·哈力克 艾山·吾买尔 +2 位作者 吐尔根·伊布拉音 卡哈尔江·阿比的热西提 买合木提·买买提 《中文信息学报》 CSCD 北大核心 2016年第6期190-200,共11页
统计机器翻译对时间、数字、量词的泛化能力较弱,为了提高汉维机器翻译系统对时间、数字和量词短语的翻译性能,该文利用双语语料库挖掘并提取汉语时间、数字、量词表达与翻译模式,实现了基于模板的时间、数字、无歧义量词翻译方法及基... 统计机器翻译对时间、数字、量词的泛化能力较弱,为了提高汉维机器翻译系统对时间、数字和量词短语的翻译性能,该文利用双语语料库挖掘并提取汉语时间、数字、量词表达与翻译模式,实现了基于模板的时间、数字、无歧义量词翻译方法及基于上下文的有歧义量词翻译方法。时间、数字、无歧义量词、有歧义量词的翻译F值达到了93.23%、90.15%、96.55%、87.58%,实验证明,该方法具有简单高效的优点。 展开更多
关键词 时间数字 无歧义量词 有歧义量词 翻译规则 翻译模板
在线阅读 下载PDF
结合单词-字符引导注意力网络的中文旅游文本命名实体识别 被引量:6
12
作者 西尔艾力·色提 艾山·吾买尔 +3 位作者 王路路 吐尔根·依布拉音 马喆康 买合木提·买买提 《计算机工程》 CAS CSCD 北大核心 2021年第2期39-45,共7页
传统基于词向量表示的命名实体识别方法通常忽略了字符语义信息、字符间的位置信息,以及字符和单词间的关联关系。提出一种基于单词-字符引导注意力网络(WCGAN)的中文旅游命名实体识别方法,利用单词引导注意力网络获取单词间的序列信息... 传统基于词向量表示的命名实体识别方法通常忽略了字符语义信息、字符间的位置信息,以及字符和单词间的关联关系。提出一种基于单词-字符引导注意力网络(WCGAN)的中文旅游命名实体识别方法,利用单词引导注意力网络获取单词间的序列信息和关键单词信息,采用字符引导注意力网络捕获字符语义信息和字符间的位置信息,增强单词和字符间的关联性与互补性,从而实现中文旅游文本中命名实体的识别。实验结果表明,WCGAN方法在ResumeNER和TourismNER基准数据集上的F值分别为93.491%和92.860%,相比Bi-LSTM+CRF、Char-Dense等方法识别效果更好。 展开更多
关键词 命名实体识别 字符引导注意力网络 单词引导注意力网络 字符语义 信息互补 位置信息
在线阅读 下载PDF
亚词及单词深度维汉机器翻译模型对比 被引量:6
13
作者 张胜刚 艾山·吾买尔 +1 位作者 吐尔根·依布拉音 买合木提·买买提 《计算机工程与设计》 北大核心 2019年第8期2326-2330,共5页
针对基于神经网络的维汉机器翻译中的集外词问题和随着网络层数的加深训练和优化模型会变得更加困难这两个问题,在对相关工作研究后,提出基于深层神经网络的亚词及单词的维汉机器翻译模型。在翻译单元上将基于词的翻译单元替换为基于词... 针对基于神经网络的维汉机器翻译中的集外词问题和随着网络层数的加深训练和优化模型会变得更加困难这两个问题,在对相关工作研究后,提出基于深层神经网络的亚词及单词的维汉机器翻译模型。在翻译单元上将基于词的翻译单元替换为基于词和亚词的混合翻译单元,将基于GRU的神经非线性单元替换为基于ALU的非线性单元,缓解训练和优化模型的难度并提高译文质量。通过实验发现该模型相比基准系统提高了近13个BLEU值,该研究对形态丰富黏着语言与汉语的机器翻译具有借鉴意义。 展开更多
关键词 维汉机器翻译 深层神经网络 亚词切分 集外词问题 BLEU值
在线阅读 下载PDF
混合策略的维吾尔语名词词干提取系统 被引量:11
14
作者 早克热.卡德尔 艾山.吾买尔 +2 位作者 吐尔根.依布拉音 帕里旦.吐尔逊 吴小川 《计算机工程与应用》 CSCD 2013年第1期171-175,共5页
通过对维吾尔语名词形态结构进行研究,构造了名词有限状态自动机(FSM);针对自动机的缺陷使用最大熵模型给有限状态自动机加入了歧义词缀识别能力,根据维吾尔语的元音和谐特点,建立了基于规则和信道噪声模型的元音和谐处理方法。有机地... 通过对维吾尔语名词形态结构进行研究,构造了名词有限状态自动机(FSM);针对自动机的缺陷使用最大熵模型给有限状态自动机加入了歧义词缀识别能力,根据维吾尔语的元音和谐特点,建立了基于规则和信道噪声模型的元音和谐处理方法。有机地结合以上三种方法构造出了基于规则和统计的名词词干提取方法。为了有效利用现有的资源,提高系统的性能,把基于词典的词干提取方法与规则和统计结合的名词词干提取方法相结合,从而开发出多种策略相结合的维吾尔语名词词干提取系统。该系统具有较强的鲁棒性,准确率保持95%以上。 展开更多
关键词 维吾尔语 黏着语 有限状态自动机 噪声信道 词干提取
在线阅读 下载PDF
维吾尔语-汉语量词短语的神经机器翻译 被引量:4
15
作者 阿依古丽·哈力克 卡哈尔江·阿比的热西提 +1 位作者 艾山·吾买尔 吐尔根·依布拉音 《计算机工程与设计》 北大核心 2019年第9期2649-2653,共5页
针对语料不足引起的维吾尔语-汉语量词短语翻译性能不佳及歧义量词的翻译结果乱等问题,提出基于多编码器多解码器的维吾尔语-汉语量词短语神经机器翻译方法。将汉语语料进行自动处理和筛选,收集包含量词的维吾尔语-汉语量词短语语料,使... 针对语料不足引起的维吾尔语-汉语量词短语翻译性能不佳及歧义量词的翻译结果乱等问题,提出基于多编码器多解码器的维吾尔语-汉语量词短语神经机器翻译方法。将汉语语料进行自动处理和筛选,收集包含量词的维吾尔语-汉语量词短语语料,使用多编码器多解码器结构,搭建具有更强生成能力的多编码器多解码器维汉神经机器翻译模型。计算BLEU值得到了36.41,并通过对比实验结果,验证了所提方法的有效性。 展开更多
关键词 维汉神经机器翻译 歧义量词 神经网络 多编码器 多解码器
在线阅读 下载PDF
基于互信息的维吾尔文自适应组词算法 被引量:6
16
作者 吐尔地.托合提 艾克白尔.帕塔尔 艾斯卡尔.艾木都拉 《计算机应用研究》 CSCD 北大核心 2013年第2期429-431,435,共4页
传统的分词方法将一个维吾尔文语义词(多词关联模式)拆分成与词意义不符的若干个片段,因此在维吾尔语文本分析及文本处理过程中导致许多问题,严重影响文本处理效率。提出了一种维吾尔文组词的全新概念,用互信息作为相邻单词间关联程度... 传统的分词方法将一个维吾尔文语义词(多词关联模式)拆分成与词意义不符的若干个片段,因此在维吾尔语文本分析及文本处理过程中导致许多问题,严重影响文本处理效率。提出了一种维吾尔文组词的全新概念,用互信息作为相邻单词间关联程度的度量,实现了基于分段式策略和增量式策略的两种自适应组词算法,并与传统的分词方法得到的词汇表进行对比分析。实验结果表明,组词算法能够非常有效地提取文本中的语义词,两种算法在大规模文本集上的组词准确率分别达到了84.31%和88.24%。 展开更多
关键词 维吾尔文 传统分词 语义词 互信息 组词
在线阅读 下载PDF
一种集成深度学习模型的旅游问句文本分类算法 被引量:4
17
作者 马喆康 迪力亚尔·帕尔哈提 +3 位作者 早克热·卡德尔 吐尔根·依布拉音 西尔艾力·色提 艾山·吾买尔 《计算机工程》 CAS CSCD 北大核心 2020年第11期70-76,共7页
为提高旅游问句文本中关键特征的利用率,提出一种集成词级卷积神经网络(WL-CNN)与句级双向长短期记忆(SL-Bi-LSTM)网络的旅游问句文本分类算法。利用WL-CNN和SL-Bi-LSTM分别学习词序列子空间向量和句序列深层语义信息,通过多头注意力机... 为提高旅游问句文本中关键特征的利用率,提出一种集成词级卷积神经网络(WL-CNN)与句级双向长短期记忆(SL-Bi-LSTM)网络的旅游问句文本分类算法。利用WL-CNN和SL-Bi-LSTM分别学习词序列子空间向量和句序列深层语义信息,通过多头注意力机制将两种深度学习模型进行集成以实现旅游问句文本的语法和语义信息互补,并通过SoftMax分类器得到最终的旅游问句文本分类结果。实验结果表明,与基于传统深度学习模型的旅游问句文本分类算法相比,该算法在准确率和损失率上分别取得了0.9866和0.1277的最优结果,具有更好的分类效果。 展开更多
关键词 子空间结构信息 深层语义信息 多头注意力机制 卷积神经网络 双向长短期记忆网络
在线阅读 下载PDF
基于特征选择和深度信念网络的文本情感分类算法 被引量:5
18
作者 向进勇 杨文忠 吾守尔·斯拉木 《计算机应用》 CSCD 北大核心 2019年第7期1942-1947,共6页
由于人类语言的复杂性,文本情感分类算法大多都存在因为冗余而造成的词汇量过大的问题。深度信念网络(DBN)通过学习输入语料中的有用信息以及它的几个隐藏层来解决这个问题。然而对于大型应用程序来说,DBN是一个耗时且计算代价昂贵的算... 由于人类语言的复杂性,文本情感分类算法大多都存在因为冗余而造成的词汇量过大的问题。深度信念网络(DBN)通过学习输入语料中的有用信息以及它的几个隐藏层来解决这个问题。然而对于大型应用程序来说,DBN是一个耗时且计算代价昂贵的算法。针对这个问题,提出了一种半监督的情感分类算法,即基于特征选择和深度信念网络的文本情感分类算法(FSDBN)。首先使用特征选择方法(文档频率(DF)、信息增益(IG)、卡方统计(CHI)、互信息(MI))过滤掉一些不相关的特征从而使词汇表的复杂性降低;然后将特征选择的结果输入到DBN中,使得DBN的学习阶段更加高效。将所提算法应用到中文以及维吾尔语中,实验结果表明在酒店评论数据集上,FSDBN在准确率方面比DBN提高了1.6%,在训练时间上比DBN缩短一半。 展开更多
关键词 深度信念网络 深度学习 特征选择 半监督的情感分类算法 受限波尔兹曼机 文本情感分类
在线阅读 下载PDF
基于多种数据筛选的维汉神经机器翻译 被引量:3
19
作者 宜年 艾山·吾买尔 +1 位作者 买合木提·买买提 吐尔根·依布拉音 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2022年第4期660-666,共7页
为了得到更好的翻译结果,研究者对于利用平行数据生成大量高质量生成数据进行了广泛的研究.为此,针对数据增强和系统训练方法,提出结合知识蒸馏、数据增强和数据筛选的方法得到高质量生成数据.具体为利用知识蒸馏的方法得到鲁棒性更强... 为了得到更好的翻译结果,研究者对于利用平行数据生成大量高质量生成数据进行了广泛的研究.为此,针对数据增强和系统训练方法,提出结合知识蒸馏、数据增强和数据筛选的方法得到高质量生成数据.具体为利用知识蒸馏的方法得到鲁棒性更强的汉维翻译模型,在该汉维模型的基础之上通过反向翻译的方法生成质量较好的生成数据,并利用不同的数据筛选方法进一步得到高质量生成数据.之后利用现有的平行数据和生成数据训练得到一个高性能的维吾尔语-汉语神经机器翻译系统.在CCMT2021维汉评测任务中验证上述方法对于维汉翻译质量的影响,对比基线系统、反向翻译和同任务其他系统,该方法训练得到的系统有着更好的翻译结果,并在该翻译任务上获得了第一名. 展开更多
关键词 维汉翻译 自注意力机制 低资源翻译
在线阅读 下载PDF
基于PChart算法的哈萨克语句法分析 被引量:4
20
作者 尚文清 古丽拉·阿东别克 +1 位作者 牛娜 于智娟 《计算机工程与设计》 北大核心 2016年第3期832-836,共5页
为研究哈萨克语的句法分析,研究自然语言处理的统计方法的句法分析。根据概率上下无关文法模型和Chart算法的特点,将概率引入Chart算法,提出一种PChart算法。利用PChart算法对哈萨克语进行句法分析,解决句法分析中哈萨克文法的获取和歧... 为研究哈萨克语的句法分析,研究自然语言处理的统计方法的句法分析。根据概率上下无关文法模型和Chart算法的特点,将概率引入Chart算法,提出一种PChart算法。利用PChart算法对哈萨克语进行句法分析,解决句法分析中哈萨克文法的获取和歧义消解问题,实现一个基于PChart算法的哈萨克语句法分析器,识别正确的哈萨克语句子。实验结果表明,该分析器在准确率、召回率等方面的性能都有所提高。 展开更多
关键词 句法分析 自然语言处理 CHART 哈萨克语 统计 概率上下无关文法
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部