期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
一种改进的维吾尔语句子相似度计算方法 被引量:8
1
作者 卡哈尔江.阿比的热西提 吐尔根.依布拉音 +2 位作者 姚天昉 艾山.吾买尔 艾山.毛力尼亚孜 《中文信息学报》 CSCD 北大核心 2011年第4期50-53,共4页
在基于实例的维吾尔语汉语机器翻译系统中维吾尔语相似度计算起重要作用。维吾尔语的黏着性特性要求对单词进行词干提取。本文提出的方法结合简单的句子结构相似度计算方法,通过对单词词干提取进行句子相似度计算。小规模实验结果比较... 在基于实例的维吾尔语汉语机器翻译系统中维吾尔语相似度计算起重要作用。维吾尔语的黏着性特性要求对单词进行词干提取。本文提出的方法结合简单的句子结构相似度计算方法,通过对单词词干提取进行句子相似度计算。小规模实验结果比较接近人工评价的句子相似度。 展开更多
关键词 维吾尔语句子相似度计算 EBMT 句子结构相似度
在线阅读 下载PDF
基于条件随机场的维吾尔文组块分析 被引量:1
2
作者 艾山.吾买尔 吐尔根.依布拉音 +3 位作者 卡哈尔江.阿比的热西提 早克.卡德尔 买合木提.买买提 亚森.艾则孜 《中文信息学报》 CSCD 北大核心 2016年第3期90-95,共6页
该文对维吾尔语树库标注体系进行分析,根据组块划分原则,在短语标记集的基础上制定了维吾尔语组块标记集,从已完成标注的3 000句语料库构建组块库。根据维文语言的特点,在英汉组块识别特征基础上,增加了词干、词缀、同义词标记等特征。... 该文对维吾尔语树库标注体系进行分析,根据组块划分原则,在短语标记集的基础上制定了维吾尔语组块标记集,从已完成标注的3 000句语料库构建组块库。根据维文语言的特点,在英汉组块识别特征基础上,增加了词干、词缀、同义词标记等特征。该文中的性能评价指标采用了国际通用的准确率,召回率和F值,3 000个标注句子作为训练和测试语料库用,实验采用了交叉验证法,训练和测试语料库的比例分别为9∶1,8∶2,2∶1,召回率分别为80.34%,76.87%,66.76%。实验表明,语料库规模对模型性能影响较大。 展开更多
关键词 条件随机场 维吾尔 组块分析
在线阅读 下载PDF
基于深度神经网络的维吾尔文命名实体识别研究 被引量:11
3
作者 王路路 艾山.吾买尔 +2 位作者 吐尔根.依布拉音 买合木提.买买提 卡哈尔江.阿比的热西提 《中文信息学报》 CSCD 北大核心 2019年第3期64-70,共7页
现有的维吾尔文命名实体识别主要采用基于条件随机场的统计学习方法,但依赖于人工提取的特征工程和领域知识。针对该问题,该文提出了一种基于深度神经网络的学习方法,并引入不同的特征向量表示。首先利用大规模未标注语料训练的词向量... 现有的维吾尔文命名实体识别主要采用基于条件随机场的统计学习方法,但依赖于人工提取的特征工程和领域知识。针对该问题,该文提出了一种基于深度神经网络的学习方法,并引入不同的特征向量表示。首先利用大规模未标注语料训练的词向量模型获取每个单词具有语义信息的词向量;其次,利用Bi-LSTM提取单词的字符级向量;然后,利用直接串联法或注意力机制处理词向量和字符级向量,进一步获取联合向量表示;最后,用BiLSTM-CRF深度神经网络模型进行命名实体标注。实验结果表明,以基于注意力机制的联合向量表示作为输入的Bi-LSTM-CRF方法在维吾尔文命名实体识别上F值达到90.13%。 展开更多
关键词 维吾尔文命名实体识别 长短时记忆网络 条件随机场 注意力机制
在线阅读 下载PDF
基于条件随机场的维吾尔文机构名识别 被引量:6
4
作者 买合木提.买买提 王路路 +2 位作者 吐尔根.依布拉音 艾山.吾买尔 卡哈尔江.阿比的热西提 《计算机工程与设计》 北大核心 2019年第1期273-278,共6页
为缓解目前维吾尔文机构名识别方法依赖于人工编写规则、识别效率低的问题,提出一种基于条件随机场模型(CRF)的维吾尔文机构名识别方法。根据维吾尔语的语言特性,结合词、词性、音节、机构名特征词表、地名词表等特征,实现维吾尔文机构... 为缓解目前维吾尔文机构名识别方法依赖于人工编写规则、识别效率低的问题,提出一种基于条件随机场模型(CRF)的维吾尔文机构名识别方法。根据维吾尔语的语言特性,结合词、词性、音节、机构名特征词表、地名词表等特征,实现维吾尔文机构名识别。实验结果表明,相比于基于规则的方法和隐马尔科夫模型(HMM),该方法不依赖于人工编写规则,识别的准确率和召回率较高。 展开更多
关键词 命名实体 机构名识别 维吾尔语 条件随机场 黏着语
在线阅读 下载PDF
基于BLSTM的维吾尔语文本情感分析 被引量:16
5
作者 王树恒 吐尔根.依布拉音 +2 位作者 卡哈尔江.阿比的热西提 艾山.吾买尔 古丽尼格尔.阿不都外力 《计算机工程与设计》 北大核心 2017年第10期2879-2886,共8页
针对传统情感分类方法未考虑文本间的深层语义关系,过于依赖背景知识并且忽略文本间情感极性的弊端,结合维吾尔语语言特征以及词语间的情感特征,探索基于word embedding和BI-LSTM的维吾尔语文本情感分析方法。结合词语间的情感特征,利用... 针对传统情感分类方法未考虑文本间的深层语义关系,过于依赖背景知识并且忽略文本间情感极性的弊端,结合维吾尔语语言特征以及词语间的情感特征,探索基于word embedding和BI-LSTM的维吾尔语文本情感分析方法。结合词语间的情感特征,利用word embedding构建词向量,获取文本的情感及语义表示;通过训练双向LSTM深度学习模型,实现维吾尔语情感分类。同等条件下,与RNN、CNN、SVM等方法进行对比,对比结果表明,该方法可以有效提高维吾尔语文本情感分类的准确率。 展开更多
关键词 情感分析 词嵌入 双向长短时记忆神经网络 深度学习 维吾尔语
在线阅读 下载PDF
混合策略的汉维辅助翻译系统的设计与实现 被引量:13
6
作者 解倩倩 艾山.吾买尔 +2 位作者 吐尔根.依布拉音 买合木提.买买提 卡哈尔江.阿比的热西提 《现代电子技术》 北大核心 2017年第20期5-9,共5页
采用统计与实例的混合策略和翻译记忆技术相结合的方法设计并实现汉维计算机辅助翻译系统。采用该方法的汉维方向BLUE值达0.292 4,0.299 9,0.292 2,维汉方向BLUE值达0.328 4,0.328 6,0.303 1;另外,在面对日益扩展的语料库的压力时采用... 采用统计与实例的混合策略和翻译记忆技术相结合的方法设计并实现汉维计算机辅助翻译系统。采用该方法的汉维方向BLUE值达0.292 4,0.299 9,0.292 2,维汉方向BLUE值达0.328 4,0.328 6,0.303 1;另外,在面对日益扩展的语料库的压力时采用优化的信息检索技术,并根据同一篇文章有同一个主题的特点采用上下文相关问答技术,均使翻译准确率和译者工作效率有了明显提高。 展开更多
关键词 计算机辅助翻译 混合策略 信息检索 上下文相关问答
在线阅读 下载PDF
中亚语言自然语言处理综述 被引量:6
7
作者 吐尔根.依布拉音 卡哈尔江.阿比的热西提 +1 位作者 艾山.吾买尔 买合木提.买买提 《中文信息学报》 CSCD 北大核心 2018年第5期1-13,21,共14页
该文对中亚地区属于同一个语族的土耳其语、哈萨克语等诸语言的自然语言处理现状进行了综述。首先分别回顾土耳其语、哈萨克语和其他中亚语言在词法分析、句法分析、命名实体识别、机器翻译方面的研究进展,随后讨论了与具体语言无关的... 该文对中亚地区属于同一个语族的土耳其语、哈萨克语等诸语言的自然语言处理现状进行了综述。首先分别回顾土耳其语、哈萨克语和其他中亚语言在词法分析、句法分析、命名实体识别、机器翻译方面的研究进展,随后讨论了与具体语言无关的黏着语词法分析方面的研究情况,最后指出国内外中亚诸语言处理自然语言领域中所面临的问题和挑战,并对未来的研究提出了建议。 展开更多
关键词 土耳其语 哈萨克语 黏着语 形态复杂语
在线阅读 下载PDF
维吾尔语词向量的评测研究 被引量:3
8
作者 吴浩 艾山.吾买尔 +2 位作者 王路路 卡哈尔江.阿比的热西提 吐尔根.依布拉音 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2019年第2期209-216,共8页
目前探究维吾尔语词向量表示的相关研究报道很少,在对其性能评价、实际使用等方面存在一些问题亟待解决.基于此,构建了维吾尔语版wordsim240和word analogy词向量评测数据集;提出了新的单词语义相似度评测方法,并以命名实体识别任务作... 目前探究维吾尔语词向量表示的相关研究报道很少,在对其性能评价、实际使用等方面存在一些问题亟待解决.基于此,构建了维吾尔语版wordsim240和word analogy词向量评测数据集;提出了新的单词语义相似度评测方法,并以命名实体识别任务作为实际任务验证其有效性;同时分析了改进的类比推理评测方法鉴别词向量表示语义的能力.实验结果显示,提出及改进的方法均能有效应用于评测任务;且在较小语料规模下,较低维度(64,128,256维)的词向量在各项评测任务上表现更好. 展开更多
关键词 词向量 维吾尔语 评测任务
在线阅读 下载PDF
基于LDA的英汉维文本聚类系统的设计与实现 被引量:2
9
作者 田亮 吐尔根.依布拉音 +1 位作者 艾山.吾买尔 卡哈尔江.阿比的热西提 《现代电子技术》 北大核心 2019年第3期122-126,共5页
以英汉维三种大规模文本聚类为目标,针对三种语言的特点实现基于LDA模型的静态文本聚类系统。因为存在博客、微博等网络媒体的文本不太规范及涉及的话题范围广泛等现象,对文本特征的提取及聚类算法的选择带来一定的难度。通过对样本文... 以英汉维三种大规模文本聚类为目标,针对三种语言的特点实现基于LDA模型的静态文本聚类系统。因为存在博客、微博等网络媒体的文本不太规范及涉及的话题范围广泛等现象,对文本特征的提取及聚类算法的选择带来一定的难度。通过对样本文本的分析,计算出适当的聚类数k,再调用LDA算法将文本聚为k类并给出每类文本的关键词。测试结果表明,该系统能将英汉维三种语言的文本相似度高的聚为一类,可显著提高聚类效果。 展开更多
关键词 文本聚类 LDA模型 多语言 文本特征提取 相似度聚类 权重
在线阅读 下载PDF
基于感知器算法的维吾尔语词性标注研究 被引量:4
10
作者 帕提古力.依马木 买合木提.买买提 +1 位作者 吐尔根.依布拉音 卡哈尔江.阿比的热西提 《中文信息学报》 CSCD 北大核心 2014年第5期187-191,共5页
维吾尔语自动标注是维吾尔语信息处理后续句法分析、语义分析及篇章分析必不可少的基础工作。词性是词的重要的语法信息,假如一个词的词性无法确定或一个词给予错误的词性,对后续句法分析造成直接的影响。本文使用感知器训练算法和vite... 维吾尔语自动标注是维吾尔语信息处理后续句法分析、语义分析及篇章分析必不可少的基础工作。词性是词的重要的语法信息,假如一个词的词性无法确定或一个词给予错误的词性,对后续句法分析造成直接的影响。本文使用感知器训练算法和viterbi算法对维吾尔语进行词性标注,并在词性标注时利用词的上下文信息作为特征。实验结果表明,该方法对维吾尔语词性标注有良好的效果。 展开更多
关键词 词性标注 感知器算法 维吾尔语词性标注
在线阅读 下载PDF
人物简历汉维机器翻译系统的设计与实现
11
作者 王路路 斯拉吉艾合麦提.如则麦麦提 +3 位作者 艾山.吾买尔 吐尔根.依布拉音 买合木提.买买提 卡哈尔江.阿比的热西提 《现代电子技术》 北大核心 2018年第24期101-105,共5页
为解决将汉语人物简历翻译成维吾尔语版本所面临的高成本、低效率等问题,设计并实现了一种基于模板与词典相结合的人物简历汉维机器翻译系统。通过分析汉语简历的句子结构特点,泛化命名实体并自动创建汉语的简历模板,然后利用正则表达... 为解决将汉语人物简历翻译成维吾尔语版本所面临的高成本、低效率等问题,设计并实现了一种基于模板与词典相结合的人物简历汉维机器翻译系统。通过分析汉语简历的句子结构特点,泛化命名实体并自动创建汉语的简历模板,然后利用正则表达式建立汉维模板库并结合基于规则与词典的方法翻译命名实体,以获取维吾尔语的人物简历。实验结果表明,该系统在单语的情况下使用有限的模板和词典,BLUE值可达到0.38,与需要大规模双语语料训练的机器翻译系统相比具有较好的实际应用价值。 展开更多
关键词 人物简历 汉维机器翻译 模板库 命名实体 正则表达式 句子结构
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部