期刊文献+
共找到25篇文章
< 1 2 >
每页显示 20 50 100
中文微博情感词提取:N-Gram为特征的分类方法 被引量:13
1
作者 刘德喜 聂建云 +3 位作者 张晶 刘晓华 万常选 廖国琼 《中文信息学报》 CSCD 北大核心 2016年第4期193-205,212,共14页
情感词典是文本情感分析的基础资源,但采用手工方式构建工作量大,且覆盖有限。一种可行的途径是从新情感词传播的重要媒介-微博数据-中自动抽取情感词。该文以COAE 2014评测任务3提供的中文微博数据为统计对象,发现传统的基于共现的方法... 情感词典是文本情感分析的基础资源,但采用手工方式构建工作量大,且覆盖有限。一种可行的途径是从新情感词传播的重要媒介-微博数据-中自动抽取情感词。该文以COAE 2014评测任务3提供的中文微博数据为统计对象,发现传统的基于共现的方法,如点互信息等,对中文微博数据中的新情感词发现是无效的。为此,设计一组基于上下文词汇的分类特征,即N-Gram特征,以刻画情感词的用词环境和用词模式,并以已知情感词为训练数据训练分类器,对候选情感词进行分类。实验结果表明,该方法较传统基于共现的方法要好。实验还发现,与英语不同的是,中文情感词通常会以名词词性出现,而基于共现的方法无法有效地区分该类情感词,这是造成其失效的主要原因,而该文提出的分类特征能解决这一问题。 展开更多
关键词 情感词提取 中文微博 分类方法 n-gram特征
在线阅读 下载PDF
基于网站用词调查的现代维吾尔语词干提取和应用研究 被引量:11
2
作者 艾孜尔古丽 齐向卫 玉素甫.艾白都拉 《计算机应用与软件》 CSCD 北大核心 2012年第3期32-34,97,共4页
通过对维吾尔文网站的词干应用状况调查,进而对现代维吾尔文词干的提取和应用进行研究。陈述调查使用的语料媒体来源、应用领域、采集的语料时间跨度与统计方法;介绍词干概念;讨论现代维吾尔语词干提取系统;研究词干在网络媒体语料中应... 通过对维吾尔文网站的词干应用状况调查,进而对现代维吾尔文词干的提取和应用进行研究。陈述调查使用的语料媒体来源、应用领域、采集的语料时间跨度与统计方法;介绍词干概念;讨论现代维吾尔语词干提取系统;研究词干在网络媒体语料中应用形式;介绍和讨论词干分布结果,最后总结以上内容。 展开更多
关键词 现代维吾尔语 网站 词干 提取
在线阅读 下载PDF
基于Android的维吾尔文词性标注、词干提取APP的开发与设计 被引量:2
3
作者 帕丽旦·木合塔尔 热依曼·吐尔逊 +1 位作者 买买提阿依甫 排孜拉·奴来海买提 《现代电子技术》 北大核心 2019年第18期139-142,146,共5页
在自然语言处理中词性标注和词干提取是最重要的任务.文中研究与实现基于Android的维吾尔文词性标注和词干提取APP,为维吾尔语自然语言处理工作开发出了快捷和方便的标注平台,目的是通过APP对大规模语料进行词性标注和词干提取,实现了... 在自然语言处理中词性标注和词干提取是最重要的任务.文中研究与实现基于Android的维吾尔文词性标注和词干提取APP,为维吾尔语自然语言处理工作开发出了快捷和方便的标注平台,目的是通过APP对大规模语料进行词性标注和词干提取,实现了广大学员通过一部Android系统的手机随时随地参与语料标注任务,从而完成了大规模语料的标注工作,将其应用到文本分析、机器翻译、语音合成、语音翻译等研究领域.该系统的实现为低资源少数民族智能化研究工作做出了贡献. 展开更多
关键词 安卓 词性标注 词干提取 维吾尔文 语料库 文本分析
在线阅读 下载PDF
融合多策略的维吾尔语词干提取方法 被引量:13
4
作者 赛迪亚古丽.艾尼瓦尔 向露 +2 位作者 宗成庆 艾克白尔.帕塔尔 艾斯卡尔.艾木都拉 《中文信息学报》 CSCD 北大核心 2015年第5期204-210,共7页
维吾尔语是形态变化复杂的黏着性语言,维吾尔语词干词缀切分对维吾尔语信息处理具有非常重要的意义,但到目前为止,维吾尔语词干提取的性能仍存在较大的改进空间。该文以N-gram模型为基本框架,根据维吾尔语的构词约束条件,提出了融合词... 维吾尔语是形态变化复杂的黏着性语言,维吾尔语词干词缀切分对维吾尔语信息处理具有非常重要的意义,但到目前为止,维吾尔语词干提取的性能仍存在较大的改进空间。该文以N-gram模型为基本框架,根据维吾尔语的构词约束条件,提出了融合词性特征和上下文词干信息的维吾尔语词干提取模型。实验结果表明,词性特征和上下文词干信息可以显著提高维吾尔语词干提取的准确率,与基准系统比较,融入了词性特征和上下文词干信息的实验准确率分别达到了95.19%和96.60%。 展开更多
关键词 维吾尔语 形态 词干提取 n-gram模型 词性特征 上下文词干信息
在线阅读 下载PDF
基于Bi-LSTM-CRF模型的维吾尔语词干提取的研究 被引量:6
5
作者 古丽尼格尔·阿不都外力 吐尔根·依布拉音 +1 位作者 卡哈尔江·阿比的热西提 王路路 《中文信息学报》 CSCD 北大核心 2019年第8期60-66,共7页
词干提取是维吾尔语自然语言处理中的基础性研究,其提取质量直接影响其他任务的性能。但目前维吾尔语词干提取研究存在过度切分、不切分和歧义切分等问题,这些问题导致词干提取质量不高,对后续任务的性能影响较大。因此该文提出了基于Bi... 词干提取是维吾尔语自然语言处理中的基础性研究,其提取质量直接影响其他任务的性能。但目前维吾尔语词干提取研究存在过度切分、不切分和歧义切分等问题,这些问题导致词干提取质量不高,对后续任务的性能影响较大。因此该文提出了基于Bi-LSTM-CRF的维吾尔语词干提取模型,将字符作为最小切分单位,选取维吾尔语字符特征、音类特征以及语音特征为候选特征,结合模型进行实验。实验表明,该文提出的Bi-LSTM-CRF模型在维吾尔语词干提取任务上,F1值达到了88%,在融入手工提取的候选特征之后,F1值提高了1.8个点,有效提高了词干提取的准确性,缓解了上述问题带来的影响。 展开更多
关键词 维吾尔语 词干提取 Bi-LSTM-CRF
在线阅读 下载PDF
字符序列标注的维吾尔语词干提取方法 被引量:5
6
作者 古丽尼格尔·阿不都外力 买合木提·买买提 +3 位作者 吐尔根·依布拉音 早克热·卡德尔 西热艾力·海如拉 王路路 《现代电子技术》 北大核心 2020年第12期151-154,160,共5页
词干提取是形态丰富语言信息处理中的基础任务,对其他自然语言处理任务有着重要的影响。该文将词干提取任务看作序列标注问题,以字符为切分粒度来表征维吾尔语单词的构成机制,结合条件随机场模型,实现基于字符序列标注的维吾尔语词干提... 词干提取是形态丰富语言信息处理中的基础任务,对其他自然语言处理任务有着重要的影响。该文将词干提取任务看作序列标注问题,以字符为切分粒度来表征维吾尔语单词的构成机制,结合条件随机场模型,实现基于字符序列标注的维吾尔语词干提取方法。首先使用词典查询方法进行词干提取,然后结合字符的弱化发音特征、音类特征以及语音特征,针对受限数据和非受限数据采用条件随机场训练模型及预测结果。实验结果表明,该方法在非受限数据集上效果较佳,且能广泛应用到其他语言。 展开更多
关键词 词干提取 序列标注 条件随机场 特征提取 模型训练 预测结果
在线阅读 下载PDF
基于词干提取的维吾尔语事件类时间短语识别 被引量:6
7
作者 邹岳琳 吐尔根.依布拉音 +2 位作者 麦热哈巴.艾力 艾山.吾买尔 帕力旦.吐尔逊 《计算机工程与设计》 CSCD 北大核心 2014年第2期625-630,共6页
针对维吾尔语事件类时间短语没有明显时间词特征词而引起的识别困难和边界定位不准确等问题,提出了一种统计结合词干提取的针对黏着性语言的事件类时间短语的识别方法。根据维吾尔语典型的黏着性语言形态特点,对时间短语构成进行分析和... 针对维吾尔语事件类时间短语没有明显时间词特征词而引起的识别困难和边界定位不准确等问题,提出了一种统计结合词干提取的针对黏着性语言的事件类时间短语的识别方法。根据维吾尔语典型的黏着性语言形态特点,对时间短语构成进行分析和分类,采用机器学习的方法将难于识别的事件类隐性时间短语识别问题转换为基于统计方法的序列标注;通过对维吾尔语事件类时间要素分析及维吾尔语构词的研究,引入黏着语特有的词干特征,选定实验特征集合,对比分析不同的特征集合的自动识别准确率的平均值。实验结果表明,该方法对维吾尔语事件类时间短语识别的F-值达到85.37%。这一结果对其它黏着性语言的研究具有参考意义。 展开更多
关键词 自然语言处理 时间短语 条件随机场 黏着语 事件类时间 特征选择 词干提取
在线阅读 下载PDF
乌兹别克语词干提取算法的比较研究 被引量:2
8
作者 吾买尔江·买买提明 古丽尼格尔·阿不都外力 +2 位作者 买合木提·买买提 卡哈尔江·阿比的热西提 吐尔根·依布拉音 《中文信息学报》 CSCD 北大核心 2020年第1期45-50,共6页
黏着语的自然语言处理中,词干提取作为一项基础的预处理任务,对其他任务的性能影响较大。现有的乌兹别克语词干提取任务仍依赖基于规则的方法,且实验效果不太理想。该文将乌兹别克语词干提取任务视为序列标注问题进行处理,以字符为最小... 黏着语的自然语言处理中,词干提取作为一项基础的预处理任务,对其他任务的性能影响较大。现有的乌兹别克语词干提取任务仍依赖基于规则的方法,且实验效果不太理想。该文将乌兹别克语词干提取任务视为序列标注问题进行处理,以字符为最小单位进行切分,分别构建了基于条件随机场(CRF)和门控循环单元网络(Bi-GRU)的乌兹别克语词干提取模型。实验结果表明,基于序列标注的乌兹别克语词干提取模型与基于规则的方法相比不仅降低了人工成本,而且在性能方面有较为显著的提升。 展开更多
关键词 乌兹别克语 词干提取 序列标注
在线阅读 下载PDF
面向音素序列的黏着语词干提取研究
9
作者 古再力努尔·依明 米吉提·阿不里米提 +1 位作者 哈妮克孜·伊拉洪 艾斯卡尔·艾木都拉 《小型微型计算机系统》 CSCD 北大核心 2023年第10期2362-2368,共7页
针对当前的黏着语词干提取任务难以处理具有上下文信息的句子级语料的问题,本文将维吾尔语作为研究对象,提出了一种句子上下文和字符特征相融合的,由BiLSTM、注意力机制(Attention)和CRF构成的词干提取模型.首先以句子级别的字符特征向... 针对当前的黏着语词干提取任务难以处理具有上下文信息的句子级语料的问题,本文将维吾尔语作为研究对象,提出了一种句子上下文和字符特征相融合的,由BiLSTM、注意力机制(Attention)和CRF构成的词干提取模型.首先以句子级别的字符特征向量为输入,使用BiLSTM模型获取正向和反向的上下文序列特征,并在此模型上加入注意力机制进行权重学习,通过提取全局特征信息来捕获词干和词缀边界;最后添加CRF使其从序列特征中学习更多信息,从而更有效地描述上下文信息.为验证上述模型的有效性,将本文模型在两种不同的数据集上进行了实验,并且将本文模型跟传统模型进行了对比.实验结果表明,本文模型对于句子级语料的效果更好,可以更有效地提取词干.此外,本文提出的模型优于其他传统模型,能全面考虑数据特征,具有一定的优越性. 展开更多
关键词 黏着语 维吾尔语 词干提取 上下文 注意力机制 BiLSTM-Attention-CRF
在线阅读 下载PDF
维语网页中n-gram模型结合类不平衡SVM的不良文本过滤方法 被引量:5
10
作者 如先姑力·阿布都热西提 亚森·艾则孜 郭文强 《计算机应用研究》 CSCD 北大核心 2019年第11期3410-3414,共5页
提出了一种结合n-gram统计模型和类不平衡支持向量机(SVM)分类器的维语文本过滤方法。首先,将网页文本进行预处理操作,通过n-gram统计模型来初步提取词干;然后,对词干进行语义分析,将具有相似含义的词干聚合为一类,以此降低词干维度;最... 提出了一种结合n-gram统计模型和类不平衡支持向量机(SVM)分类器的维语文本过滤方法。首先,将网页文本进行预处理操作,通过n-gram统计模型来初步提取词干;然后,对词干进行语义分析,将具有相似含义的词干聚合为一类,以此降低词干维度;最后,在传统SVM中引入一个控制超平面之间距离的参数,构建一种类不平衡SVM,使其能够很好地分类具有非线性不可分和不平衡性的维吾尔语文本。实验结果表明,该方法能够准确分类出不良文本,且具有较短的分类时间。 展开更多
关键词 维吾尔语网页 不良文本过滤 n-gram词干提取 类不平衡SVM
在线阅读 下载PDF
蒙古语有向图形态分析器的判别式词干词缀切分 被引量:5
11
作者 姜文斌 吴金星 +2 位作者 乌日力嘎 那顺乌日图 刘群 《中文信息学报》 CSCD 北大核心 2011年第4期30-34,共5页
蒙古语形态分析中,我们之前的有向图模型取得了较高的性能。这种建模方式以图状结构刻画句中词干和词缀之间的概率关系,从而借助上下文信息为每个词确定最佳的切分标注候选。为每个词尽可能地枚举出所有合法的切分标注候选,是有向图模... 蒙古语形态分析中,我们之前的有向图模型取得了较高的性能。这种建模方式以图状结构刻画句中词干和词缀之间的概率关系,从而借助上下文信息为每个词确定最佳的切分标注候选。为每个词尽可能地枚举出所有合法的切分标注候选,是有向图模型有效工作的前提。该文提出了一种基于判别式分类的词干词缀切分策略,与之前基于词干表和词缀表的枚举方案相比,该方法对于词中含有未登录词干的情形具有更好的泛化能力。以20万词规模的三级标注人工语料库为训练数据,采用判别式词干词缀切分的有向图形态分析器,对于含有未登录词干的情形,词级切分标注正确率提高了7个百分点。 展开更多
关键词 蒙古语 词法分析 词性标注 词干提取 有向图 判别式
在线阅读 下载PDF
基于词素切分的低资源语言文本分类 被引量:1
12
作者 沙尔旦尔·帕尔哈提 木塔力甫·沙塔尔 +1 位作者 阿力木江·亚森 阿布都热合曼·卡的尔 《计算机工程与设计》 北大核心 2025年第2期530-536,共7页
针对维-哈-柯等派生类低资源语言文本分类中特征空间维数巨增、特征提取效率低等问题,提出一种基于Bi-LSTM_CRF的词素切和基于Bi-LSTM_Attention的文本分类方法。对实验文本进行词素切分及词干提取以有效减少特征空间维数,采用BERT嵌入... 针对维-哈-柯等派生类低资源语言文本分类中特征空间维数巨增、特征提取效率低等问题,提出一种基于Bi-LSTM_CRF的词素切和基于Bi-LSTM_Attention的文本分类方法。对实验文本进行词素切分及词干提取以有效减少特征空间维数,采用BERT嵌入向量表示较好地保留文本语义信息。将Bi-LSTM与Attention机制结合构建文本分类模型,有效提取文本词干之间长距离依赖关系特征,以此提高维-哈-柯语文本分类的效果,分别得到了96.68%、96.72%和96.54%的分类准确率。实验结果表明,高效词素切分和嵌入向量表示方法能够提高维-哈-柯等低资源语言文本分类的效果。 展开更多
关键词 维-哈-柯语 词素切分 词干提取 词干嵌入向量 特征表示 神经网络 文本分类
在线阅读 下载PDF
词干单元和卷积神经网络的哈萨克短文本分类 被引量:1
13
作者 沙尔旦尔·帕尔哈提 米吉提·阿不里米提 艾斯卡尔·艾木都拉 《小型微型计算机系统》 CSCD 北大核心 2020年第8期1627-1633,共7页
针对哈萨克文本分类中词干提取效率低以及传统框架下特征表示维度高、数据稀疏、分类准确率不高等问题,提出基于哈萨克语形态分析的词干提取方法以及wor2vec_TFIDF融合特征表示和卷积神经网络(CNN)的哈萨克短文本分类方法.首先,根据哈... 针对哈萨克文本分类中词干提取效率低以及传统框架下特征表示维度高、数据稀疏、分类准确率不高等问题,提出基于哈萨克语形态分析的词干提取方法以及wor2vec_TFIDF融合特征表示和卷积神经网络(CNN)的哈萨克短文本分类方法.首先,根据哈萨克语的词素和语音规则,用词-词素平行训练语料训练高效词干提取模型,并用该模型从网上下载的哈萨克短文本中提取词干.其次,用word2vec算法训练词干向量来分布式地表示文本内容,再用TFIDF算法对其进行加权.最后,用CNN进行文本分类实验,得到95.39%的分类准确率.实验结果表明,稳健词素切分及加权词干向量表示和深度学习方法相比传统机器学习方法更能提高哈萨克短文本分类任务的效率. 展开更多
关键词 哈萨克语 词干提取 词干向量 文本分类 形态学
在线阅读 下载PDF
维文领域本体组合词概念分类关系提取 被引量:1
14
作者 杨倩倩 刘胜全 +1 位作者 刘艳 李连倍 《计算机应用与软件》 CSCD 2015年第7期79-81,101,共4页
针对维文黏着语的特点和广义后缀树提取概念间分类关系时后缀树中出现非概念词的问题,提出一种改进的基于广义后缀树的维文领域本体组合词概念分类关系提取算法。该算法首先对维文领域本体组合词概念构建广义后缀树,先序遍历广义后缀树... 针对维文黏着语的特点和广义后缀树提取概念间分类关系时后缀树中出现非概念词的问题,提出一种改进的基于广义后缀树的维文领域本体组合词概念分类关系提取算法。该算法首先对维文领域本体组合词概念构建广义后缀树,先序遍历广义后缀树,对叶子节点存储的后缀词进行维文词干提取,删除非概念词所在叶节点,合并经维文词干提取后表示相同概念的叶节点,实现广义后缀树的剪枝;进而自动提取组合词概念分类关系。实验表明,与传统的基于广义后缀树的概念分类关系提取算法相比,准确率、召回率都得到了提高。 展开更多
关键词 维文 广义后缀树 组合词概念 词干提取 分类关系
在线阅读 下载PDF
一种基于改进KNN的哈萨克语文本分类 被引量:4
15
作者 古丽娜孜 孙铁利 +2 位作者 胡西旦 伊力亚尔 库瓦特拜克 《东北师大学报(自然科学版)》 CAS CSCD 北大核心 2014年第2期63-68,共6页
将文本分类理论应用于哈萨克语中,给出了哈萨克语文本预处理过程.介绍一种改进的KNN算法,并结合自己构建的哈萨克语料集实现基于改进KNN算法的哈萨克语的文本分类.仿真实验数据表明,该方法在哈萨克语的文本分类上获得了较好的效果.
关键词 哈萨克语本分类 词干提取 向量空间模型 相似度 KNN
在线阅读 下载PDF
蒙古语词法分析的有向图模型 被引量:3
16
作者 姜文斌 吴金星 +3 位作者 长青 那顺乌日图 刘群 赵理莉 《中文信息学报》 CSCD 北大核心 2011年第5期94-100,共7页
我们为蒙古语词法分析建立了一种生成式的概率统计模型。该模型将蒙古语语句的词法分析结果描述为有向图结构,图中节点表示分析结果中的词干、词缀及其相应标注,而边则表示节点之间的转移或生成关系。特别地,在本工作中我们刻画了词干... 我们为蒙古语词法分析建立了一种生成式的概率统计模型。该模型将蒙古语语句的词法分析结果描述为有向图结构,图中节点表示分析结果中的词干、词缀及其相应标注,而边则表示节点之间的转移或生成关系。特别地,在本工作中我们刻画了词干到词干转移概率、词缀到词缀转移概率、词干到词缀生成概率、相应的标注之间的三种转移或生成概率,以及词干或词缀到相应标注相互生成概率。以内蒙古大学开发的20万词规模的三级标注人工语料库为训练数据,该模型取得了词级切分正确率95.1%,词级联合切分与标注正确率93%的成绩。 展开更多
关键词 蒙古语 词法分析 词语切分 词性标注 词干提取 有向图
在线阅读 下载PDF
基于机器翻译的维吾尔语形态分析研究 被引量:3
17
作者 徐春 杨勇 蒋同海 《计算机工程与应用》 CSCD 北大核心 2017年第14期138-142,154,共6页
针对现有维吾尔语形态分析研究中存在的数据稀疏、模型构建复杂等问题,提出一种基于机器翻译的维吾尔语形态分析模型,即将维吾尔语词干提取(词性标注)任务中词干提取前(词性标注前)的句子看作是机器翻译模型训练过程中的源语言端,词干... 针对现有维吾尔语形态分析研究中存在的数据稀疏、模型构建复杂等问题,提出一种基于机器翻译的维吾尔语形态分析模型,即将维吾尔语词干提取(词性标注)任务中词干提取前(词性标注前)的句子看作是机器翻译模型训练过程中的源语言端,词干提取后(词性标注后)的句子看作是目标语言端;为了达到最佳的效果,加入了外部信息模块和联合校验模块以优化模型。实验结果表明,基于机器翻译框架的维吾尔语形态分析模型在词干提取、词性标注两个任务上优于其他模型。对比英语(词干提取、词性标注)、汉语(分词、词性标注)实验结果,提出的方法更适合维吾尔语形态分析。 展开更多
关键词 维吾尔语形态分析 基于机器翻译 词干提取 词性标注 模型优化
在线阅读 下载PDF
基于噪声信道的维吾尔语央音原音识别模型 被引量:2
18
作者 艾山.吾买尔 吐尔根.依步拉音 早克热.卡德尔 《计算机工程与应用》 CSCD 北大核心 2010年第15期118-120,192,共4页
维吾尔语单词连接构形词缀时,经常发生元音弱化成央音的现象。但对已有形态变化的单词进行形态还原时,使用规则识别弱化央音的原音的效率一般在40%左右。提出基于噪声信道的维吾尔语央音原音识别模型。该模型以弱化词干词尾的二字符、... 维吾尔语单词连接构形词缀时,经常发生元音弱化成央音的现象。但对已有形态变化的单词进行形态还原时,使用规则识别弱化央音的原音的效率一般在40%左右。提出基于噪声信道的维吾尔语央音原音识别模型。该模型以弱化词干词尾的二字符、三字符和最后音节作为上下文,建立语言模型和似然度计算公式。在开放测试中,模型的准确率达到82.45%,提高词干提取准确率15%。 展开更多
关键词 噪声信道 维吾尔语 元音弱化 词干提取 央音
在线阅读 下载PDF
维吾尔语名词构形词缀有限状态自动机的构造 被引量:20
19
作者 早克热.卡德尔 艾山.吾买尔 +1 位作者 吐尔根.依布拉音 艾斯卡尔.艾木都拉 《中文信息学报》 CSCD 北大核心 2009年第6期116-121,共6页
该文主要阐述维吾尔语词干提取中使用的名词构形词缀分析DFA的构造过程。维吾尔语属于黏着语,所以维吾尔语自然语言处理系统必须实现词干提取。词干提取的主要任务从单词提取词干和连接词干词尾的构形词缀。维吾尔语单词的构形词缀按照... 该文主要阐述维吾尔语词干提取中使用的名词构形词缀分析DFA的构造过程。维吾尔语属于黏着语,所以维吾尔语自然语言处理系统必须实现词干提取。词干提取的主要任务从单词提取词干和连接词干词尾的构形词缀。维吾尔语单词的构形词缀按照一定的规则连接到词干词尾,这使得维吾尔语构形词缀的连接规则可用有限状态自动机形式化描述。该文首先介绍维吾尔语名词的形态结构,然后根据规则构造从右向左的有限状态自动机,最后对这个自动机进行方向翻转和转换确定自动机操作。 展开更多
关键词 人工智能 自然语言处理 维吾尔语 黏着语 构形词缀 有限自动机 语音和谐 词干提取
在线阅读 下载PDF
基于支持向量的最近邻文本分类方法 被引量:4
20
作者 古丽娜孜.艾力木江 乎西旦.居马洪 +1 位作者 孙铁利 梁义 《智能系统学报》 CSCD 北大核心 2018年第5期799-807,共9页
文本分类为一个文档自动分配一组预定义的类别或主题。文本分类中,文档的表示对学习机的学习性能有很大的影响。以实现哈萨克语文本分类为目的,根据哈萨克语语法规则设计实现哈萨克语文本的词干提取,完成哈萨克语文本的预处理。提出基... 文本分类为一个文档自动分配一组预定义的类别或主题。文本分类中,文档的表示对学习机的学习性能有很大的影响。以实现哈萨克语文本分类为目的,根据哈萨克语语法规则设计实现哈萨克语文本的词干提取,完成哈萨克语文本的预处理。提出基于最近支持向量机的样本距离公式,避免k参数的选定,以SVM与KNN分类算法的特殊组合算法(SV-NN)实现了哈萨克语文本的分类。结合自己构建的哈萨克语文本语料库的语料进行文本分类仿真实验,数值实验展示了提出算法的有效性并证实了理论结果。 展开更多
关键词 词干提取 预处理 支持向量机 文本分类 分类精度
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部