期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
基于混合卡方统计量与逻辑回归的文本情感分析 被引量:19
1
作者 李平 戴月明 王艳 《计算机工程》 CAS CSCD 北大核心 2017年第12期192-196,202,共6页
针对文本情感分析中基于卡方统计量的特征提取方法容易忽略单个文本词频,导致文本分类准确率较低的问题,提出一种基于混合卡方统计量的特征提取方法。通过增加特征频率、逆文档频率和负相关性指标,选出集中在某个特定类别中的特征词,从... 针对文本情感分析中基于卡方统计量的特征提取方法容易忽略单个文本词频,导致文本分类准确率较低的问题,提出一种基于混合卡方统计量的特征提取方法。通过增加特征频率、逆文档频率和负相关性指标,选出集中在某个特定类别中的特征词,从而减少特征负相关性的干扰。采用基于随机梯度下降的逻辑回归方法进行文本情感分类,并利用模拟退火原理自适应选择步长,解决随机梯度下降算法中步长难以确定的问题。实验结果表明,与基于卡方统计量的特征提取方法相比,该方法具有更高的文本情感分类质量。 展开更多
关键词 卡方统计量 特征提取 负相关性 随机梯度下降 逻辑回归 情感分类
在线阅读 下载PDF
基于改进卡方统计量的藏文文本表示方法
2
作者 徐涛 于洪志 加羊吉 《计算机工程》 CAS CSCD 2014年第6期185-189,共5页
藏文文本表示是将非结构化的藏文文本转换为计算机能够处理的数据形式,是藏文文本分类、文本聚类等领域特征抽取的前提。传统的藏文文本表示方法较少考虑特征项之间的关联度,容易造成语义损失。为此,结合向量空间模型,提出一种新的藏文... 藏文文本表示是将非结构化的藏文文本转换为计算机能够处理的数据形式,是藏文文本分类、文本聚类等领域特征抽取的前提。传统的藏文文本表示方法较少考虑特征项之间的关联度,容易造成语义损失。为此,结合向量空间模型,提出一种新的藏文文本表示方法。提取文本中词频统计TF-IDF值较高的部分词项作为对比词项,对藏文文本进行断句处理,以每个句子作为一个语境主题,利用卡方统计量计算文本中词项与对比词项的关联程度。实验结果表明,与传统的向量空间模型相比,该方法能更准确地表示藏文文本。 展开更多
关键词 藏文信息处理 改进卡方统计量 文本表示 自动断句 空间模型
在线阅读 下载PDF
基于改进卡方统计的微博特征提取方法 被引量:14
3
作者 徐明 高翔 +1 位作者 许志刚 刘磊 《计算机工程与应用》 CSCD 2014年第19期113-117,142,共6页
通过对微博文本特征信息的分析与研究,提出一种基于改进卡方统计的微博特征提取方法。扩充微博信息分类特征,在传统的卡方统计量的基础上,引入了频度等因素,改进特征选择方法;在传统的特征项权值计算的基础上,提出了新的改进卡方统计量... 通过对微博文本特征信息的分析与研究,提出一种基于改进卡方统计的微博特征提取方法。扩充微博信息分类特征,在传统的卡方统计量的基础上,引入了频度等因素,改进特征选择方法;在传统的特征项权值计算的基础上,提出了新的改进卡方统计量的方法,改进权重计算效果。对上述方法利用经典KNN和SVM算法进行了测试,实验结果表明该方法提高了微博信息分类的准确率。 展开更多
关键词 微博分类 卡方统计量 特征选择 权值计算
在线阅读 下载PDF
基于单核苷酸多态性筛选的品种鉴定方法
4
作者 郭美萍 古万荣 +3 位作者 谢先荣 毛宜军 陈墩金 熊懿 《计算机应用》 CSCD 北大核心 2024年第S01期369-373,共5页
针对基因序列数据集中的高维小样本和样本不平衡问题,提出基于单核苷酸多态性筛选的品种鉴定方法。首先,利用改进的卡方统计量对预处理后的基因序列数据进行卡方值的计算,通过比较卡方值的大小筛选出单核苷酸多态性(SNP)位点;其次,使用... 针对基因序列数据集中的高维小样本和样本不平衡问题,提出基于单核苷酸多态性筛选的品种鉴定方法。首先,利用改进的卡方统计量对预处理后的基因序列数据进行卡方值的计算,通过比较卡方值的大小筛选出单核苷酸多态性(SNP)位点;其次,使用变体的过采样技术Variant-SMOTE(Variant Synthetic Minority Over-sampling TEchnique)平衡样本,以所有类别中的最大样本数量为基准,将剩余的其他少数类样本扩充至基准量,再将得到的矩阵输入K近邻(KNN)训练模型;最后,将该模型应用于10个水稻亚种的基因序列数据中迭代10次,取最高、最低的一组数据和平均值与2020-2023年提出的6种方法进行对比实验。实验结果表明,所提模型可以有效地选取出重要度排名前1%的位点作为SNP位点,即可以有效地从3139562个位点中选出31396个高信息量位点用于品种鉴定,鉴定的准确率达到了85.21%。相较于2020-2023年提出的6种方法,所提模型在水稻亚种鉴定中具有最好的鉴定效果,准确率比最低的方法chi-square+random forest提高了120%,比最高的方法chisquare+SMOTE+KNN和ReliefF+SVM提高了11.01%。所提方法虽然较对比方法更耗时,但在保留高信息量SNP的基础上减少了用于品种鉴定的位点数,降低了品种鉴定的成本。 展开更多
关键词 卡方统计量 过采样 特征选择 品种鉴定 K近邻
在线阅读 下载PDF
基于方差的CHI特征选择方法 被引量:30
5
作者 邱云飞 王威 +1 位作者 刘大有 邵良杉 《计算机应用研究》 CSCD 北大核心 2012年第4期1304-1306,共3页
通过分析特征词与类别间的相关性,在原有的卡方特征选择的方法上增加三个调节参数,使选出的特征词集中分布在某一类,且在某一类中尽可能地均匀分布,并使特征词在某一类中出现的次数尽可能地多。通过实验对比改进前后的卡方特征选择方法... 通过分析特征词与类别间的相关性,在原有的卡方特征选择的方法上增加三个调节参数,使选出的特征词集中分布在某一类,且在某一类中尽可能地均匀分布,并使特征词在某一类中出现的次数尽可能地多。通过实验对比改进前后的卡方特征选择方法,基于方差的卡方统计(Var-CHI)方法使得查全率和查准率都得到了明显的提高。 展开更多
关键词 文本分类 特征选择 卡方统计量
在线阅读 下载PDF
基于二进制烟花算法的特征选择方法 被引量:6
6
作者 路永和 陈泳珊 《情报学报》 CSSCI CSCD 北大核心 2017年第3期249-259,共11页
文本分类中的特征选择方法对分类性能有重要的影响。烟花算法是一种解决优化问题的群体智能优化方法,而特征选择的本质是离散空间的优化组合问题。本文采用二进制编码方式,将烟花算法应用到特征选择上,通过改进二进制烟花算法及其参数设... 文本分类中的特征选择方法对分类性能有重要的影响。烟花算法是一种解决优化问题的群体智能优化方法,而特征选择的本质是离散空间的优化组合问题。本文采用二进制编码方式,将烟花算法应用到特征选择上,通过改进二进制烟花算法及其参数设置,从而达到提高分类性能的目的。实验数据使用中英文两种语料库,其中英文数据使用路透社的21578经典文本分类语料库(Reuters21578)的R8单标签语料集;中文数据使用复旦语料库,每种语料库随机抽取训练文本和测试文本各为1800篇。分别使用KNN、SVM分类器在预选维数为300维、600维、900维、1200维、2000维、3000维、4000维、5000维、10000维中进行实验。结果表明:采用二进制烟花算法对特征词选择进行优化后,其效果优于传统的特征选择方法,且具有良好的稳定性。 展开更多
关键词 词文本分类 特征选择 二进制烟花算法 信息增益 卡方统计量
在线阅读 下载PDF
中文文本分类中基于和声搜索算法的特征选择方法 被引量:5
7
作者 路永和 张宇楠 《情报学报》 CSSCI 北大核心 2015年第11期1203-1213,共11页
特征选择是中文文本分类过程的重要预处理环节,特征选择效果直接影响文本的分类准确率。传统的特征选择方法有CHI、IG等,在其他分类预处理环节和分类算法确定的条件下,通过这些传统特征选择方法很难大幅度提高文本分类的准确率。因... 特征选择是中文文本分类过程的重要预处理环节,特征选择效果直接影响文本的分类准确率。传统的特征选择方法有CHI、IG等,在其他分类预处理环节和分类算法确定的条件下,通过这些传统特征选择方法很难大幅度提高文本分类的准确率。因此,本文在传统特征选择方法的基础上提出一种新的特征选择方法,该方法利用传统的特征选择方法对原始特征进行预选,在此基础上使用和声搜索算法以二进制编码形式对预选特征进行优选,选择与否分别编码为1和0。与此同时,以分类准确率作为个体的适应度,在和声库的初始化中设定一个前半解分量为1、后半解分量为0的初始解向量,以此提高初始和声库中解的适应度。使用搜狗语料库、复旦语料库、中山大学资讯管理学院智能信息处理实验室提供的语料库,每个语料库提取的训练文本和测试文本分别为1800篇和900篇。分别使用KNN、朴素贝叶斯、SVM分类器在预选维数为300维、600维、1200维中进行实验。结果表明,对比传统的特征选择方法,采用二进制和声搜索算法进行特征优选后,其分类准确率均得到提高。 展开更多
关键词 文本分类 特征选择 二进制和声搜索 算法信息 增益卡方统计量
在线阅读 下载PDF
用于连续属性离散化的RSE-Chi2方法 被引量:2
8
作者 束志恒 陈德钊 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2005年第6期849-852,共4页
为解决基于卡方统计量离散化方法在处理未知数据特性时的参数难确定问题,提出了一种基于粗糙集方法的自动离散化方法.该方法根据粗糙集理论对知识不确定性和属性重要性的分析,利用粗糙集方法处理数据不需要先验知识的特点,以基于最小描... 为解决基于卡方统计量离散化方法在处理未知数据特性时的参数难确定问题,提出了一种基于粗糙集方法的自动离散化方法.该方法根据粗糙集理论对知识不确定性和属性重要性的分析,利用粗糙集方法处理数据不需要先验知识的特点,以基于最小描述长度原理的决策系统信息熵作为离散化过程的评价函数,并由属性断点平均重要性确定多连续属性的离散化顺序,构建了自动的离散化方法RSEChi2.实例测试表明,该方法性能良好,能根据样本数据本身的特性,自动协调拟合和预报精度,不需要先验设定显著性水平和不一致率等参数,离散化结果更为精简,所建决策树分类模型具有较好的预报性能. 展开更多
关键词 粗糙集 卡方统计量 信息熵 属性重要性 离散化
在线阅读 下载PDF
一种新的维吾尔文文本分类特征选择方法 被引量:1
9
作者 何燕 哈力旦.阿布都热依木 +1 位作者 阿丽亚.艾尔肯 吴冰冰 《河南科技大学学报(自然科学版)》 CAS 北大核心 2016年第3期42-46,6-7,共5页
针对传统卡方统计量方法对特征项的频数和类别分布考虑不足的缺陷,提出了一种结合余弦相似度的卡方统计量特征选择方法。该方法首先使用均值词频-逆文档频率表示特征项,通过引入一个调整公式来平衡类间选取的特征项数,从而对传统卡方统... 针对传统卡方统计量方法对特征项的频数和类别分布考虑不足的缺陷,提出了一种结合余弦相似度的卡方统计量特征选择方法。该方法首先使用均值词频-逆文档频率表示特征项,通过引入一个调整公式来平衡类间选取的特征项数,从而对传统卡方统计量方法进行修正,然后结合余弦相似度进一步消除噪声文本。在收集的维吾尔文数据集上进行实验论证。实验结果表明:改进的卡方统计量方法具有较好的鲁棒性,且分类性能优于传统的卡方统计量方法。 展开更多
关键词 维吾尔文 卡方统计量 余弦相似度 特征选择
在线阅读 下载PDF
中文分词模型的领域适应性方法 被引量:59
10
作者 韩冬煦 常宝宝 《计算机学报》 EI CSCD 北大核心 2015年第2期272-281,共10页
字标注分词方法是当前中文分词领域中一种较为有效的分词方法.但因为受制于训练语料的领域和规模,该方法在领域适应性方面效果不佳,影响了该方法在应用系统中的实际应用.在文中,作者提出使用卡方统计量以及边界熵提升未登录词的处理能力... 字标注分词方法是当前中文分词领域中一种较为有效的分词方法.但因为受制于训练语料的领域和规模,该方法在领域适应性方面效果不佳,影响了该方法在应用系统中的实际应用.在文中,作者提出使用卡方统计量以及边界熵提升未登录词的处理能力,并结合自学习和协同学习策略进一步改善字标注分词方法在领域适应性方面的性能.实验结果证实,文中提出的这些方法有效改善了分词方法的领域适应性. 展开更多
关键词 卡方统计量 边界熵 领域适应性 自举算法 中文分词 社会计算 社交网络
在线阅读 下载PDF
结合word2vec与扩充情感词典的微博多元情感分类研究 被引量:16
11
作者 王名扬 吴欢 贾晓婷 《东北师大学报(自然科学版)》 CAS 北大核心 2019年第1期55-62,共8页
对微博文本的多元情感分类问题进行了研究.针对现有的多元情感词典不能很好地覆盖微博文本中情感词的不足,结合特定的情感符号和基于卡方统计量的度量方法,实现对现有的多元情感词典的扩充;针对情感词典无法有效考察文本的上下文语境信... 对微博文本的多元情感分类问题进行了研究.针对现有的多元情感词典不能很好地覆盖微博文本中情感词的不足,结合特定的情感符号和基于卡方统计量的度量方法,实现对现有的多元情感词典的扩充;针对情感词典无法有效考察文本的上下文语境信息的问题,引入word2vec模型实现情感词和其所在微博语句的向量化表达.在此基础上,利用KNN分类器实现微博句子级的多元情感分类.实验结果表明,扩充情感词典及引入word2vec模型均有助于提升微博文本多元情感分类的效果. 展开更多
关键词 多元情感分类 卡方统计量 word2vec KNN
在线阅读 下载PDF
基于子树特征的中文实体关系抽取 被引量:1
12
作者 姚全珠 王美君 李如琼 《计算机工程》 CAS CSCD 2012年第1期48-50,54,共4页
基于核函数的实体关系抽取方法将信息隐含在核函数中,无法辨别有用和无用信息,会引入噪声。为此,提出一种基于子树特征的实体关系抽取方法。利用子树挖掘和特征选择得到有效子树,并将其作为特征模板构造特征向量。在中文语料库上进行的... 基于核函数的实体关系抽取方法将信息隐含在核函数中,无法辨别有用和无用信息,会引入噪声。为此,提出一种基于子树特征的实体关系抽取方法。利用子树挖掘和特征选择得到有效子树,并将其作为特征模板构造特征向量。在中文语料库上进行的实验结果表明,该方法具有较好的分类效果。 展开更多
关键词 实体关系抽取 短语结构语法 依存语法 特征选择 卡方统计量
在线阅读 下载PDF
基于改进CHI特征选择的情感文本分类研究 被引量:13
13
作者 袁磊 《传感器与微系统》 CSCD 2017年第5期47-51,共5页
为了提高情感文本分类的准确率,对英文情感文本不同的预处理方式进行了研究,同时提出了一种改进的卡方统计量(CHI)特征提取算法。卡方统计量是一种有效的特征选择方法,但分析发现存在负相关现象和倾向于选择低频特征词的问题。为了克服... 为了提高情感文本分类的准确率,对英文情感文本不同的预处理方式进行了研究,同时提出了一种改进的卡方统计量(CHI)特征提取算法。卡方统计量是一种有效的特征选择方法,但分析发现存在负相关现象和倾向于选择低频特征词的问题。为了克服不足之处,在考虑到词频、集中度和分散度等因素的基础上,考虑文本的长短不均衡和特征词分布,对词频进行归一化,提出了一种改进的卡方统计量特征提取算法。利用经典朴素贝叶斯和支持向量机分类算法在均衡语料、非均衡语料和混合长短文本语料上实验,实验结果表明:新的方法提高了情感文本分类的准确率。 展开更多
关键词 情感分类 预处理 卡方统计量 特征选择
在线阅读 下载PDF
一种改进TF-IDF的中文邮件识别算法研究 被引量:9
14
作者 吴小晴 万国金 +2 位作者 李程文 林梦思 曹书强 《现代电子技术》 北大核心 2020年第12期83-86,共4页
传统的TF-IDF算法没有很好地分配分词的权重,对一些能代表邮件类别出现频率较大的词语计算的IDF值反而较小,IDF值小说明单词的区分能力弱而不符合实际情况。为了提升垃圾邮件识别的准确率,提出一种改进TF-IDF算法和类中心向量的中文垃... 传统的TF-IDF算法没有很好地分配分词的权重,对一些能代表邮件类别出现频率较大的词语计算的IDF值反而较小,IDF值小说明单词的区分能力弱而不符合实际情况。为了提升垃圾邮件识别的准确率,提出一种改进TF-IDF算法和类中心向量的中文垃圾邮件识别方法。通过改进传统的TF-IDF计算方式,在传统的TF-IDF算法里面加入卡方统计量CHI和位置影响因子能够很好地改善一些重要词汇的权重问题,并结合逆向最大匹配算法的邮件文本分词和类中心向量算法的特征选择进行垃圾邮件分类。实验结果表明,所提算法相较于传统的TF-IDF算法对垃圾邮件识别的准确率提升了约3.6%,具有一定的实际应用价值。 展开更多
关键词 TF-IDF算法 邮件识别 卡方统计量 权重分配 邮件分类 仿真分析
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部