期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
新疆少数民族语言文字信息处理研究与应用 被引量:27
1
作者 吐尔根·依布拉音 袁保社 《中文信息学报》 CSCD 北大核心 2011年第6期149-156,共8页
该文主要对国内开展维吾尔、哈萨克、柯尔克孜等少数民族语言信息处理以来的相关研究工作进行了介绍和评价。在此基础上对维吾尔、哈萨克、柯尔克孜文信息处理的进一步发展进行了展望。目的是为了探讨如何加速推进维吾尔、哈萨克、柯尔... 该文主要对国内开展维吾尔、哈萨克、柯尔克孜等少数民族语言信息处理以来的相关研究工作进行了介绍和评价。在此基础上对维吾尔、哈萨克、柯尔克孜文信息处理的进一步发展进行了展望。目的是为了探讨如何加速推进维吾尔、哈萨克、柯尔克孜文信息处理技术的发展。通过对维、哈、柯文操作系统、信息技术标准、语言信息处理及综合应用等四个方面历史和现状的介绍及简单评价,对维、哈、柯语信息处理的发展方向做了相关描述。 展开更多
关键词 维吾尔文 哈萨克文 柯尔克孜文 信息处理 操作系统 自然语言 标准
在线阅读 下载PDF
基于词序统计组合的中文文本关键词提取技术 被引量:10
2
作者 苏祥坤 吾守尔.斯拉木 买买提依明.哈斯木 《计算机工程与设计》 北大核心 2015年第6期1647-1651,共5页
为进一步改善关键词提取的效果,提出一种基于词序统计组合的关键词提取方法。通过词序统计、词性标注、停用词过滤、词语组合等步骤,实现短语或组合词的生成和候选关键词的过滤;通过其它特征项的引入,进一步提高最终提取关键词的准确度... 为进一步改善关键词提取的效果,提出一种基于词序统计组合的关键词提取方法。通过词序统计、词性标注、停用词过滤、词语组合等步骤,实现短语或组合词的生成和候选关键词的过滤;通过其它特征项的引入,进一步提高最终提取关键词的准确度。实验结果表明,该方法对中文文本的关键词提取具有良好的效果。 展开更多
关键词 权重 词序 关键词 单文本 词语组合
在线阅读 下载PDF
哈萨克语IT领域术语识别研究与实现 被引量:7
3
作者 木合亚提·尼亚孜别克 古力沙吾利·塔里甫 《中文信息学报》 CSCD 北大核心 2016年第3期68-73,共6页
该文阐述了基于统计方法进行哈萨克语IT领域术语识别的研究,并在已有的训练语料基础之上,采用最大熵模型进行标注识别和结合人工方式对错误识别结果进行后处理的分析实验,阐述了该平台的研究和设计思路,系统的总体框架、基本结构、功能... 该文阐述了基于统计方法进行哈萨克语IT领域术语识别的研究,并在已有的训练语料基础之上,采用最大熵模型进行标注识别和结合人工方式对错误识别结果进行后处理的分析实验,阐述了该平台的研究和设计思路,系统的总体框架、基本结构、功能模块以及实现方法等相关的问题。实验结果显示该方法识别哈萨克语IT领域术语是有效的,封闭测试结果达到了82.6%。 展开更多
关键词 哈萨克语 IT术语 术语管理平台 最大熵模型
在线阅读 下载PDF
基于综合的句子特征的文本自动摘要 被引量:11
4
作者 程园 吾守尔.斯拉木 买买提依明.哈斯木 《计算机科学》 CSCD 北大核心 2015年第4期226-229,共4页
采用了一种综合的文本自动摘要方法来抽取出涵盖范围广、冗余信息少、最能反映文本中心思想的文本摘要。该方法充分考虑文本中的词频、标题、句子位置、线索词、提示性短语、句子相似度等特征因素,构建了一个综合的特征加权函数,运用数... 采用了一种综合的文本自动摘要方法来抽取出涵盖范围广、冗余信息少、最能反映文本中心思想的文本摘要。该方法充分考虑文本中的词频、标题、句子位置、线索词、提示性短语、句子相似度等特征因素,构建了一个综合的特征加权函数,运用数学回归模型对语料进行训练,去除冗余句子信息,提取关键句生成摘要。实验评估表明了该方法的可行性、有效性以及在摘要质量方面的优越性。 展开更多
关键词 自动摘要 特征因素 综合 加权函数
在线阅读 下载PDF
基于多种数据筛选的维汉神经机器翻译 被引量:3
5
作者 宜年 艾山·吾买尔 +1 位作者 买合木提·买买提 吐尔根·依布拉音 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2022年第4期660-666,共7页
为了得到更好的翻译结果,研究者对于利用平行数据生成大量高质量生成数据进行了广泛的研究.为此,针对数据增强和系统训练方法,提出结合知识蒸馏、数据增强和数据筛选的方法得到高质量生成数据.具体为利用知识蒸馏的方法得到鲁棒性更强... 为了得到更好的翻译结果,研究者对于利用平行数据生成大量高质量生成数据进行了广泛的研究.为此,针对数据增强和系统训练方法,提出结合知识蒸馏、数据增强和数据筛选的方法得到高质量生成数据.具体为利用知识蒸馏的方法得到鲁棒性更强的汉维翻译模型,在该汉维模型的基础之上通过反向翻译的方法生成质量较好的生成数据,并利用不同的数据筛选方法进一步得到高质量生成数据.之后利用现有的平行数据和生成数据训练得到一个高性能的维吾尔语-汉语神经机器翻译系统.在CCMT2021维汉评测任务中验证上述方法对于维汉翻译质量的影响,对比基线系统、反向翻译和同任务其他系统,该方法训练得到的系统有着更好的翻译结果,并在该翻译任务上获得了第一名. 展开更多
关键词 维汉翻译 自注意力机制 低资源翻译
在线阅读 下载PDF
维吾尔语词向量的评测研究 被引量:3
6
作者 吴浩 艾山.吾买尔 +2 位作者 王路路 卡哈尔江.阿比的热西提 吐尔根.依布拉音 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2019年第2期209-216,共8页
目前探究维吾尔语词向量表示的相关研究报道很少,在对其性能评价、实际使用等方面存在一些问题亟待解决.基于此,构建了维吾尔语版wordsim240和word analogy词向量评测数据集;提出了新的单词语义相似度评测方法,并以命名实体识别任务作... 目前探究维吾尔语词向量表示的相关研究报道很少,在对其性能评价、实际使用等方面存在一些问题亟待解决.基于此,构建了维吾尔语版wordsim240和word analogy词向量评测数据集;提出了新的单词语义相似度评测方法,并以命名实体识别任务作为实际任务验证其有效性;同时分析了改进的类比推理评测方法鉴别词向量表示语义的能力.实验结果显示,提出及改进的方法均能有效应用于评测任务;且在较小语料规模下,较低维度(64,128,256维)的词向量在各项评测任务上表现更好. 展开更多
关键词 词向量 维吾尔语 评测任务
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部