期刊文献+
共找到91篇文章
< 1 2 5 >
每页显示 20 50 100
新疆少数民族语言文字信息处理研究与应用 被引量:27
1
作者 吐尔根·依布拉音 袁保社 《中文信息学报》 CSCD 北大核心 2011年第6期149-156,共8页
该文主要对国内开展维吾尔、哈萨克、柯尔克孜等少数民族语言信息处理以来的相关研究工作进行了介绍和评价。在此基础上对维吾尔、哈萨克、柯尔克孜文信息处理的进一步发展进行了展望。目的是为了探讨如何加速推进维吾尔、哈萨克、柯尔... 该文主要对国内开展维吾尔、哈萨克、柯尔克孜等少数民族语言信息处理以来的相关研究工作进行了介绍和评价。在此基础上对维吾尔、哈萨克、柯尔克孜文信息处理的进一步发展进行了展望。目的是为了探讨如何加速推进维吾尔、哈萨克、柯尔克孜文信息处理技术的发展。通过对维、哈、柯文操作系统、信息技术标准、语言信息处理及综合应用等四个方面历史和现状的介绍及简单评价,对维、哈、柯语信息处理的发展方向做了相关描述。 展开更多
关键词 维吾尔文 哈萨克文 柯尔克孜文 信息处理 操作系统 自然语言 标准
在线阅读 下载PDF
文本问答中基于双向叠加注意力的证据区间预测
2
作者 吐尔地·托合提 罗长虹 艾斯卡尔·艾木都拉 《计算机工程与科学》 北大核心 2025年第8期1470-1482,共13页
文本问答通常仅依靠文本与问题的单向匹配关系来定位证据区间并作答,在面临远端干扰及多处答案词等语义困难时难以捕捉精短证据区间。针对此问题,提出一种基于双向叠加注意力机制的证据区间预测模型ESP-BSA。首先,将问题与文本进行交叉... 文本问答通常仅依靠文本与问题的单向匹配关系来定位证据区间并作答,在面临远端干扰及多处答案词等语义困难时难以捕捉精短证据区间。针对此问题,提出一种基于双向叠加注意力机制的证据区间预测模型ESP-BSA。首先,将问题与文本进行交叉匹配来丰富隐式交互的文本语义;其次,根据证据分布互异性设计软证据标签对来表示前向和后向证据得分;最后,对序列中每个位置的证据得分双向叠加以获得更符合上下文语境要求的证据区间。实验结果表明,所提方法在Span-F1,Span-EM等评价指标上较基线模型有所提升,证实了其在复杂语境中能够有效提高证据区间预测精确度和问答准确性。 展开更多
关键词 文本问答 证据区间 注意力机制 双向叠加 软证据标签
在线阅读 下载PDF
基于WebGIS的维吾尔文天气信息服务 被引量:3
3
作者 郑江华 阿地力肉孜 《计算机工程》 CAS CSCD 2012年第6期288-290,共3页
针对维吾尔语用户对基于地理信息技术的服务需求,提出一种基于WebGIS的维吾尔文天气信息服务系统。以天气信息服务为应用领域,集成Google Maps API地图服务组件与实时Yahoo Weather RSS天气信息,利用网页自定义字体技术解决维吾尔文的... 针对维吾尔语用户对基于地理信息技术的服务需求,提出一种基于WebGIS的维吾尔文天气信息服务系统。以天气信息服务为应用领域,集成Google Maps API地图服务组件与实时Yahoo Weather RSS天气信息,利用网页自定义字体技术解决维吾尔文的表达问题,使用VS2005开发工具实现系统。应用结果表明,该系统能提供多种内置工具,实现维吾尔文天气信息的实时查询。 展开更多
关键词 地理信息系统 封装 信息查询 天气信息
在线阅读 下载PDF
高并发汉英信息抽取系统的设计与实现 被引量:4
4
作者 张少迪 艾山·吾买尔 +1 位作者 郑炅 石刚 《现代电子技术》 北大核心 2019年第16期104-107,111,共5页
随着大数据时代的来临,如何从海量数据中抽取出最有效的信息成为人们最迫切的需要。为了能够在大数据的环境下更好更快地进行汉英文本的信息抽取,文中采用Python编程语言,Django+uWSGI+Nginx框架,基于TextRank的图排序算法实现汉英文本... 随着大数据时代的来临,如何从海量数据中抽取出最有效的信息成为人们最迫切的需要。为了能够在大数据的环境下更好更快地进行汉英文本的信息抽取,文中采用Python编程语言,Django+uWSGI+Nginx框架,基于TextRank的图排序算法实现汉英文本信息抽取系统。该系统包含文本关键词提取,文本关键短语提取以及文本摘要提取。测试结果表明,该系统能够实现大规模数据的高并发稳定调用,在兼顾抽取质量的同时,还能实现超高效率的信息抽取,具有很好的实际应用价值。 展开更多
关键词 大数据 高并发 信息抽取 TextRank uWSGI NGINX DJANGO
在线阅读 下载PDF
基于互信息的维吾尔文自适应组词算法 被引量:6
5
作者 吐尔地.托合提 艾克白尔.帕塔尔 艾斯卡尔.艾木都拉 《计算机应用研究》 CSCD 北大核心 2013年第2期429-431,435,共4页
传统的分词方法将一个维吾尔文语义词(多词关联模式)拆分成与词意义不符的若干个片段,因此在维吾尔语文本分析及文本处理过程中导致许多问题,严重影响文本处理效率。提出了一种维吾尔文组词的全新概念,用互信息作为相邻单词间关联程度... 传统的分词方法将一个维吾尔文语义词(多词关联模式)拆分成与词意义不符的若干个片段,因此在维吾尔语文本分析及文本处理过程中导致许多问题,严重影响文本处理效率。提出了一种维吾尔文组词的全新概念,用互信息作为相邻单词间关联程度的度量,实现了基于分段式策略和增量式策略的两种自适应组词算法,并与传统的分词方法得到的词汇表进行对比分析。实验结果表明,组词算法能够非常有效地提取文本中的语义词,两种算法在大规模文本集上的组词准确率分别达到了84.31%和88.24%。 展开更多
关键词 维吾尔文 传统分词 语义词 互信息 组词
在线阅读 下载PDF
场景文字识别技术研究综述 被引量:20
6
作者 王德青 吾守尔·斯拉木 许苗苗 《计算机工程与应用》 CSCD 北大核心 2020年第18期1-15,共15页
对文字检测和识别技术进行了全面的介绍。介绍了自然场景文字识别技术的研究背景、应用领域、技术难点等;介绍了场景文字识别的预处理技术及流程,介绍了近年来出现的基于深度学习的通用检测网络、维吾尔文和中英文的深度学习文字检测网... 对文字检测和识别技术进行了全面的介绍。介绍了自然场景文字识别技术的研究背景、应用领域、技术难点等;介绍了场景文字识别的预处理技术及流程,介绍了近年来出现的基于深度学习的通用检测网络、维吾尔文和中英文的深度学习文字检测网络、场景文字识别深度学习网络、端到端场景文字检测与识别深度学习网络,并总结了各类网络的结构特点、优势、局限性、应用场景以及实现成本,接着进行了综合分析;最后介绍了公开数据集,并探讨了场景文字识别技术的发展趋势及可能的研究方向。 展开更多
关键词 场景文字检测 文本识别 深度学习 端到端检测识别
在线阅读 下载PDF
基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类 被引量:9
7
作者 阿力甫.阿不都克里木 李晓 《计算机科学》 CSCD 北大核心 2016年第12期36-40,共5页
针对维吾尔语文本的分类问题,提出一种基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类方法。首先,对输入文本进行预处理,滤除非维吾尔语的字符和停用词;然后,利用词语语义相似度、词语位置和词频重要性加权的TextRank... 针对维吾尔语文本的分类问题,提出一种基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类方法。首先,对输入文本进行预处理,滤除非维吾尔语的字符和停用词;然后,利用词语语义相似度、词语位置和词频重要性加权的TextRank算法提取文本关键词集合;最后,根据互信息相似度度量,计算输入文本关键词集和各类关键词集的相似度,最终实现文本的分类。实验结果表明,该方案能够提取出具有较高识别度的关键词,当关键词集大小为1250时,平均分类率达到了91.2%。 展开更多
关键词 维吾尔语 文本分类 关键词提取 TextRank算法 互信息相似度
在线阅读 下载PDF
文本信息检索系统的设计与实现 被引量:1
8
作者 李高鹏 艾山·吾买尔 +1 位作者 郑炅 王路路 《现代电子技术》 北大核心 2019年第16期62-66,共5页
随着信息化的发展,互联网上出现了越来越多的文档信息,如何根据用户的需要从海量的文档中快速获取相关信息成为了研究的热点。采用Python编程语言、DjangoWeb应用框架、UWSGIWeb服务器、Nignx代理服务器,基于Tex-tRank关键词提取算法、... 随着信息化的发展,互联网上出现了越来越多的文档信息,如何根据用户的需要从海量的文档中快速获取相关信息成为了研究的热点。采用Python编程语言、DjangoWeb应用框架、UWSGIWeb服务器、Nignx代理服务器,基于Tex-tRank关键词提取算法、倒排索引结构、Jaccard相似度计算以及MySQL数据库技术构建了汉英文本信息检索系统。该系统包含文本注册、文本检索和文本注销三个模块,可实现千万量级文本数量上的快速注册和快速检索功能,为构建舆情分析系统提供服务,并可根据人们特定的需求,扩展文本检索服务。 展开更多
关键词 信息检索 算法介绍 倒排索引 检索系统构建 快速注册 快速检索
在线阅读 下载PDF
基于多特征融合的新疆旅游领域关系抽取研究 被引量:1
9
作者 骆铭 古丽拉·阿东别克 +1 位作者 马雅静 陈赟 《东北师大学报(自然科学版)》 CAS 北大核心 2023年第1期88-96,共9页
通过结合2738个领域词汇组成的词典对新疆旅游领域语料进行预处理操作,对文本信息进行实体关系抽取研究,提出基于旅游领域的词典信息,融合多级特征的Bi-LSTM、CNN和Attention机制的领域级关系抽取模型.该模型首先使用预训练模型生成含... 通过结合2738个领域词汇组成的词典对新疆旅游领域语料进行预处理操作,对文本信息进行实体关系抽取研究,提出基于旅游领域的词典信息,融合多级特征的Bi-LSTM、CNN和Attention机制的领域级关系抽取模型.该模型首先使用预训练模型生成含较强的语义表征能力的词向量;再使用Bi-LSTM获取更好的语义信息和词向量拼接以捕获长距离的语义特征;用CNN进行特征提取,加强局部特征的学习,并使用注意力池化层(Attentive-pooling)用以强化特征的表达;最后通过Softmax完成关系抽取任务.结果表明:该模型在SemEval-2010 Task 8公开数据集中F1值达到83.46%,证明了其有效性.且模型在新疆旅游领域语料的关系抽取任务中的F1值达到92.73%,优于目前的主流关系抽取模型. 展开更多
关键词 新疆旅游领域 关系抽取 Bi-LSTM CNN Attentive-pooling
在线阅读 下载PDF
基于词序统计组合的中文文本关键词提取技术 被引量:10
10
作者 苏祥坤 吾守尔.斯拉木 买买提依明.哈斯木 《计算机工程与设计》 北大核心 2015年第6期1647-1651,共5页
为进一步改善关键词提取的效果,提出一种基于词序统计组合的关键词提取方法。通过词序统计、词性标注、停用词过滤、词语组合等步骤,实现短语或组合词的生成和候选关键词的过滤;通过其它特征项的引入,进一步提高最终提取关键词的准确度... 为进一步改善关键词提取的效果,提出一种基于词序统计组合的关键词提取方法。通过词序统计、词性标注、停用词过滤、词语组合等步骤,实现短语或组合词的生成和候选关键词的过滤;通过其它特征项的引入,进一步提高最终提取关键词的准确度。实验结果表明,该方法对中文文本的关键词提取具有良好的效果。 展开更多
关键词 权重 词序 关键词 单文本 词语组合
在线阅读 下载PDF
基于改进Conformer的新闻领域端到端语音识别 被引量:4
11
作者 张济民 早克热·卡德尔 +2 位作者 艾山·吾买尔 申云飞 汪烈军 《中文信息学报》 CSCD 北大核心 2024年第4期156-164,共9页
目前,开源的中文语音识别数据集大多面向通用领域,缺少面向新闻领域的开源语音识别语料库,因此该文构建了面向新闻领域的中文语音识别数据集CH_NEWS_ASR,并使用ESPNET-0.9.6框架的RNN、Transformer和Conformer等模型对数据集的有效性进... 目前,开源的中文语音识别数据集大多面向通用领域,缺少面向新闻领域的开源语音识别语料库,因此该文构建了面向新闻领域的中文语音识别数据集CH_NEWS_ASR,并使用ESPNET-0.9.6框架的RNN、Transformer和Conformer等模型对数据集的有效性进行了验证,实验表明,该文所构建的语料在最好的模型上CER为4.8%,SER为39.4%。由于新闻联播主持人说话语速相对较快,该文构建的数据集文本平均长度为28个字符,是Aishell_1数据集文本平均长度的2倍;且以往的研究中训练目标函数通常为基于字或词水平,缺乏明确的句子水平关系,因此该文提出了一个句子层级的一致性模块,与Conformer模型结合,直接减少源语音和目标文本的表示差异,在开源的Aishell_1数据集上其CER降低0.4%,SER降低2%;在CH_NEWS_ASR数据集上其CER降低0.9%,SER降低3%,实验结果表明,该方法在不增加模型参数量的前提下能有效提升语音识别的质量。 展开更多
关键词 端到端语音识别 CONFORMER 句子层级一致性
在线阅读 下载PDF
基于MEGA网络和分层预测的标点恢复方法
12
作者 张文博 黄浩 +1 位作者 吴迪 唐敏杰 《计算机工程》 CAS CSCD 北大核心 2024年第12期396-406,共11页
标点恢复又称标点预测,是指对一段没有标点的文本添加合适的标点,以提高文本的可读性,是一项经典的自然语言处理任务。随着预训练模型的发展和标点恢复研究的深入,标点恢复任务的性能在不断提升。然而,基于Transformer结构的预训练模型... 标点恢复又称标点预测,是指对一段没有标点的文本添加合适的标点,以提高文本的可读性,是一项经典的自然语言处理任务。随着预训练模型的发展和标点恢复研究的深入,标点恢复任务的性能在不断提升。然而,基于Transformer结构的预训练模型在提取长序列输入的局部信息方面存在局限性,不利于最终标点符号的预测。此外,以往的研究将标点标签视为要预测的符号,忽略了不同标点的场景属性和标点间的关系。为了解决这些问题,引入移动平均门控注意力(MEGA)网络作为辅助模块,以增强模型对局部信息的提取能力。同时,构建分层预测模块,充分利用不同标点符号的场景属性和标点间的关系进行最终的分类。使用多种基于Transformer结构的预训练模型在不同语言的数据集上进行实验,在英文标点数据集IWSLT上的实验结果表明,在多数预训练模型上应用MEGA模块和分层预测模块都能获得性能增益,使用DeBERTaV3 xlarge在IWSLT的REF测试集上的F1值达到85.5%,相比于基线提升了1.2个百分点。此外,在中文标点数据集的实验中也取得较高的精度。 展开更多
关键词 标点恢复 自然语言处理 预训练模型 Transformer结构 分层预测
在线阅读 下载PDF
融合方面语义和网格标记的多语言意见元组抽取
13
作者 古文霞 早克热·卡德尔 +1 位作者 杨乾 艾山·吾买尔 《计算机科学》 CSCD 北大核心 2024年第4期324-333,共10页
面向方面的细粒度意见抽取(Aspect-oriented Fine-grained Opinion Extraction,AFOE)任务的目的是以意见对的形式抽取文本评论中的方面和意见词或者再抽取情感极性,形成意见三元组。以往的研究通常以管道方式抽取意见元素,容易出现错误... 面向方面的细粒度意见抽取(Aspect-oriented Fine-grained Opinion Extraction,AFOE)任务的目的是以意见对的形式抽取文本评论中的方面和意见词或者再抽取情感极性,形成意见三元组。以往的研究通常以管道方式抽取意见元素,容易出现错误传播的问题,而且大多数只关注方面词和意见词的单个子任务抽取,忽略了不同意见元素之间的相互影响和指示信息,导致意见挖掘任务不完整。此外,面向中文的意见元素抽取任务的研究较少。针对以上问题,文中提出了融合方面语义和网格标记的多语言意见元组抽取模型。首先,使用向内LSTM(Inward-LSTM)和向外LSTM(Outward-LSTM)编码方面词及其对应的上下文信息建立方面和候选意见词的关联,再结合全局信息生成特定方面语义特征的上下文表示,有利于提高下游意见元素抽取的性能。其次,使用网格标记方案的推理策略,利用方面和意见词之间的依赖指示信息进行更准确的抽取,以端到端的方式处理AFOE任务。相比基线模型,对于方面意见对抽取任务,改进的模型在中英文数据集上的F1值提高了0.89%~4.11%,对于三元组抽取任务提高了1.36%~3.11%,实验结果表明,改进的模型能有效地对中英文评论的意见元素进行抽取,性能显著优于基线模型。 展开更多
关键词 方面意见对抽取 三元组抽取 网格标记方案 方面语义 面向方面的细粒度意见抽取
在线阅读 下载PDF
旅游领域意图识别和槽位填充联合建模方法研究
14
作者 厉雯 古丽拉·阿东别克 +1 位作者 樊诗雨 任方日 《东北师大学报(自然科学版)》 CAS 北大核心 2024年第2期75-82,共8页
构建了基于BERT的双向连接模式BERT-based Bi-directional Association Model(BBAM)以实现在意图识别和槽位填充之间建立双向关系的目标,来实现意图识别与槽位填充的双向关联,融合两个任务的上下文信息,对意图识别与槽位填充两个任务之... 构建了基于BERT的双向连接模式BERT-based Bi-directional Association Model(BBAM)以实现在意图识别和槽位填充之间建立双向关系的目标,来实现意图识别与槽位填充的双向关联,融合两个任务的上下文信息,对意图识别与槽位填充两个任务之间的联系进行深度挖掘,从而优化问句理解的整体性能.为了验证模型在旅游领域中的实用性和有效性,通过远程监督和人工校验构建了旅游领域问句数据集TFQD(Tourism Field Question Dataset),BBAM模型在此数据集上的槽填充任务F 1值得分为95.21%,意图分类准确率(A)为96.71%,整体识别准确率(A_(sentence))高达89.62%,显著优于多种基准模型.所提出的模型在ATIS和Snips两个公开数据集上与主流联合模型进行对比实验后,结果表明其具备一定的泛化能力. 展开更多
关键词 自然语言理解 口语理解 问句理解 旅游领域 智能问答 意图识别 槽位填充 联合建模
在线阅读 下载PDF
基于MHSA和GCN的方面级情感分析模型
15
作者 杨乾 艾山·吾买尔 +1 位作者 孙伟伟 古文霞 《东北师大学报(自然科学版)》 CAS 北大核心 2024年第2期69-74,共6页
针对目前大多数现有的基于图卷积网络的模型只考虑了特定方面和上下文之间的交互关系,忽略了方面之间的交互情感特征的问题,本文提出了一种利用预训练BERT和多头自注意力机制(MHSA)结合图卷积网络的模型(MHSAGCN-BERT).用方面词与上下... 针对目前大多数现有的基于图卷积网络的模型只考虑了特定方面和上下文之间的交互关系,忽略了方面之间的交互情感特征的问题,本文提出了一种利用预训练BERT和多头自注意力机制(MHSA)结合图卷积网络的模型(MHSAGCN-BERT).用方面词与上下文的句法依赖和方面之间的相互情感关系来推导出特定方面的情感极性,以此增强模型学习特征能力.在Restaurant14、Restaurant15、Restaurant16公开数据集上进行了实验,结果表明,本文模型与其他方面级情感分析模型相比有较明显的提升. 展开更多
关键词 方面级情感分析 多头自注意力机制 图卷积网络 方面交互 句法依赖树
在线阅读 下载PDF
CRF与规则相结合的维吾尔文地名识别研究 被引量:9
16
作者 买合木提·买买提 卡哈尔江·阿比的热西提 +2 位作者 艾山·吾买尔 吐尔根·依布拉音 王路路 《中文信息学报》 CSCD 北大核心 2017年第6期110-118,共9页
该文通过维吾尔文地名的分析研究,提出了一种基于条件随机场和规则的维吾尔文地名识别方法。根据维吾尔文地名黏着性、音译等特点,针对维吾尔文地名识别任务,在词汇和词性特征基础之上,引入音节、词向量获取的相似单词、常用地名词典、... 该文通过维吾尔文地名的分析研究,提出了一种基于条件随机场和规则的维吾尔文地名识别方法。根据维吾尔文地名黏着性、音译等特点,针对维吾尔文地名识别任务,在词汇和词性特征基础之上,引入音节、词向量获取的相似单词、常用地名词典、地名特征词、地名词缀等特征进行实验,结果表明这些特征对识别性能有较大的影响。通过对错误识别结果分析,该文提出了基于规则的后处理,进一步提高了识别性能,准确率达到94.68%,召回率达到89.52%,F值达到92.03%。 展开更多
关键词 命名实体 维吾尔文 地名 条件随机场 词向量
在线阅读 下载PDF
基于多卷积核DPCNN的维吾尔语文本分类联合模型 被引量:8
17
作者 加米拉·吾守尔 吴迪 +3 位作者 王路路 古丽尼格尔·阿不都外力 买合木提·买买提 吐尔根·依布拉音 《中文信息学报》 CSCD 北大核心 2021年第7期63-71,共9页
由于维吾尔语形态丰富且资源匮乏,因此直接使用现有的深度学习模型并不能很好地完成文本分类任务。基于此,该文提出了MDPLC文本分类模型,即首先将预先训练的词向量和经Bi-LSTM处理得到的语义信息进行融合,进而得到全句语义依赖,然后通... 由于维吾尔语形态丰富且资源匮乏,因此直接使用现有的深度学习模型并不能很好地完成文本分类任务。基于此,该文提出了MDPLC文本分类模型,即首先将预先训练的词向量和经Bi-LSTM处理得到的语义信息进行融合,进而得到全句语义依赖,然后通过组合池化的CNN进一步加强局部语义学习,同时以双通道的方式使用多卷积核DPCNN捕获文本语义信息,最后融合两种模型提取到的信息完成文本分类任务。为验证该模型的有效性,该文分别采用中文、英文和维吾尔文短、长文本数据集进行实验,实验结果表明,该模型在多个分类任务中取得的性能都高于现有主流深度学习模型,验证了该模型在不同语种、语义表达稀疏和语义丰富各种情况下的鲁棒性。 展开更多
关键词 维吾尔语 文本分类 多卷积核DPCNN Bi-LSTM+CNN
在线阅读 下载PDF
基于字符归一化双投影互相关性匹配识别算法 被引量:8
18
作者 万金娥 袁保社 +1 位作者 谷朝 米尔沙力江.沙吾提 《计算机应用》 CSCD 北大核心 2013年第3期645-647,716,共4页
针对印刷体维吾尔文文字识别系统中的字符识别正确率较低这一难点问题,采用对字符图像进行横向扫描和纵向扫描生成行和列投影图,结合三级分类,将目标字符与对应分类中的字符的双投影图逐一归一化并进行相关性均值计算的方法,取均值最大... 针对印刷体维吾尔文文字识别系统中的字符识别正确率较低这一难点问题,采用对字符图像进行横向扫描和纵向扫描生成行和列投影图,结合三级分类,将目标字符与对应分类中的字符的双投影图逐一归一化并进行相关性均值计算的方法,取均值最大的字符作为最佳匹配识别结果,实现了对维文字符的识别。实验证明这种基于字符归一化双投影互相关性匹配识别算法方法抗干扰性强,简单易行,匹配精度高,使得印刷体维吾尔文字字符识别的正确率有了进一步提高。 展开更多
关键词 印刷体维吾尔文 双积分投影图 投影图归一化 互相关性 模板匹配识别
在线阅读 下载PDF
带标记音节的双向维汉神经机器翻译方法 被引量:3
19
作者 艾山·吾买尔 斯拉吉艾合麦提·如则麦麦提 +4 位作者 西热艾力·海热拉 刘文其 吐尔根·依布拉音 汪烈军 瓦依提·阿不力孜 《计算机工程与应用》 CSCD 北大核心 2021年第4期161-168,共8页
近年来,基于神经网络的机器翻译成为机器翻译领域的主流方法,但是在低资源翻译领域中仍存在平行语料不足和数据稀疏的挑战。针对维-汉平行语料不足和维吾尔语形态复杂所导致的数据稀疏问题,从维吾尔语的音节特点出发,将单词切分成音节,... 近年来,基于神经网络的机器翻译成为机器翻译领域的主流方法,但是在低资源翻译领域中仍存在平行语料不足和数据稀疏的挑战。针对维-汉平行语料不足和维吾尔语形态复杂所导致的数据稀疏问题,从维吾尔语的音节特点出发,将单词切分成音节,同时融入BME(Begin,Middle,End)标记思想,提出一种基于带标记音节的神经网络机器翻译方法。与使用单词粒度和BPE粒度的两类神经网络机器翻译方法对比,该方法在维-汉机器翻译任务中分别提升7.39与3.04个BLEU值,在汉-维机器翻译任务中分别提升5.82与3.09个BLEU值,可见在平行语料不足的条件下,该方法有效地提升了维-汉机器翻译的质量。 展开更多
关键词 神经机器翻译 数据稀疏 音节粒度 维汉神经机器翻译
在线阅读 下载PDF
一种提高维吾尔语-汉语词语对齐的方法研究 被引量:9
20
作者 麦热哈巴·艾力 王志洋 吐尔根·依布拉音 《小型微型计算机系统》 CSCD 北大核心 2012年第11期2551-2555,共5页
维吾尔语是典型的粘着性语言,其复杂的形态以及众多的词缀影响维吾尔语-汉语词语对齐的质量.本文提出对维吾尔语词进行形态分析并词干与词缀分离,再进行对齐;并根据维吾尔语遵循语音和谐规律的特点,对维吾尔语词缀的变体采用统一的表示... 维吾尔语是典型的粘着性语言,其复杂的形态以及众多的词缀影响维吾尔语-汉语词语对齐的质量.本文提出对维吾尔语词进行形态分析并词干与词缀分离,再进行对齐;并根据维吾尔语遵循语音和谐规律的特点,对维吾尔语词缀的变体采用统一的表示方法,使得词缀呈现相同的形式.通过以上方法欲达到抑制维汉词语对齐中数据稀疏现象.本文利用此方法处理了新疆多语种信息技术重点实验室提供的维汉双语语料,再利用GIZA++进行对齐,试验结果表明,此方法对词语对齐效果起到了明显的积极作用,而且对维汉机器翻译的质量也有显著的提高. 展开更多
关键词 词对齐 维吾尔语 形态分析 GIZA++
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部