期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
基于信息增益与信息熵的TFIDF算法 被引量:48
1
作者 李学明 李海瑞 +1 位作者 薛亮 何光军 《计算机工程》 CAS CSCD 2012年第8期37-40,共4页
传统的特征词权重算法TFIDF忽略了特征词在类内、类间的分布对其权重的影响。针对该问题,引入信息熵的概念,对基于信息增益的TFIDF算法(TFIDFIG)进行改进,提出一种基于信息增益与信息熵的TFIDF算法(TFIDFIGE)。实验结果表明,与传统的TF... 传统的特征词权重算法TFIDF忽略了特征词在类内、类间的分布对其权重的影响。针对该问题,引入信息熵的概念,对基于信息增益的TFIDF算法(TFIDFIG)进行改进,提出一种基于信息增益与信息熵的TFIDF算法(TFIDFIGE)。实验结果表明,与传统的TFIDF算法和TFIDFIG算法相比,TFIDFIGE算法的查准率和查全率较高。 展开更多
关键词 文本分类 信息增益 信息熵 tfidf算法
在线阅读 下载PDF
TFIDF算法研究综述 被引量:224
2
作者 施聪莺 徐朝军 杨晓江 《计算机应用》 CSCD 北大核心 2009年第B06期167-170,180,共5页
文本分类中特征项权重的赋予对于分类效果有较大的影响,TFIDF算法是权重计算的重要算法之一。在回顾TFIDF算法发展历史的基础上,考察了其固有缺陷,总结诸多学者对其的改进方法,并对TFIDF算法新的应用领域进行了概括,并通过实验验证相关... 文本分类中特征项权重的赋予对于分类效果有较大的影响,TFIDF算法是权重计算的重要算法之一。在回顾TFIDF算法发展历史的基础上,考察了其固有缺陷,总结诸多学者对其的改进方法,并对TFIDF算法新的应用领域进行了概括,并通过实验验证相关改进算法,为读者更好地应用TFIDF算法提供参考。 展开更多
关键词 tfidf 文本分类 VSM
在线阅读 下载PDF
基于TFIDF文本特征加权方法的改进研究 被引量:37
3
作者 张保富 施化吉 马素琴 《计算机应用与软件》 CSCD 2011年第2期17-20,共4页
针对传统TFIDF方法将文档集作为整体来处理,并没有考虑到特征项在类间和类内的分布情况的不足,提出一种结合信息熵的TFIDF改进方法。该方法采用结合特征项在类间和类内信息分布熵来调整TFIDF特征项的权重计算,避免了那些对分类没有贡献... 针对传统TFIDF方法将文档集作为整体来处理,并没有考虑到特征项在类间和类内的分布情况的不足,提出一种结合信息熵的TFIDF改进方法。该方法采用结合特征项在类间和类内信息分布熵来调整TFIDF特征项的权重计算,避免了那些对分类没有贡献的特征项被赋予较大权值的缺陷,能更有效计算文本特征项的权重。实验结果表明该方法提高了文本分类的精确度和召回率,是一种比较有效的文本特征加权方法。 展开更多
关键词 tfidf 文本分类 特征加权 向量空间模型
在线阅读 下载PDF
一种改进的TFIDF网页关键词提取方法 被引量:31
4
作者 李静月 李培峰 朱巧明 《计算机应用与软件》 CSCD 2011年第5期25-27,共3页
传统TFIDF关键词提取方法虽然实现起来简单,时间复杂度低,但是效果并不理想,难以获得对文本内容起到关键性作用的特征。提出了一种在考虑中文文本结构特征和中文词语词性特征的基础上,借助扩展的同义词词林,利用改进的TFIDF公式来提取... 传统TFIDF关键词提取方法虽然实现起来简单,时间复杂度低,但是效果并不理想,难以获得对文本内容起到关键性作用的特征。提出了一种在考虑中文文本结构特征和中文词语词性特征的基础上,借助扩展的同义词词林,利用改进的TFIDF公式来提取的方法。实验结果表明:该方法明显优于传统方法,能够抽取到令人满意的结果。 展开更多
关键词 文本结构 关键词抽取 tfidf
在线阅读 下载PDF
语义识别驱动的化工泄漏事故事前预防研究 被引量:4
5
作者 刘勤明 董宏霖 孔得朝 《安全与环境学报》 CAS CSCD 北大核心 2024年第12期4734-4742,共9页
化工泄漏事故报告蕴含事故信息量大,但利用度低,仅依赖传统的事故分析理论和方法对事故后果进行分析统计难以实现事前预防、控制损失最小化的目的,因此,构建了语义识别驱动的化工泄漏事故事前预防研究框架,基于潜在狄利克雷分配(Latent ... 化工泄漏事故报告蕴含事故信息量大,但利用度低,仅依赖传统的事故分析理论和方法对事故后果进行分析统计难以实现事前预防、控制损失最小化的目的,因此,构建了语义识别驱动的化工泄漏事故事前预防研究框架,基于潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)主题模型提取化工泄漏事故致因主题及关键词,利用关键词共现网络分析进行致因中心性和关联度分析,使用因子分析进行致因影响因子的计算,实现了对化工泄漏事故报告潜在信息的挖掘和有效分析。结果表明:通过LDA模型可以计算得到化工泄漏事故致因主题,得出安全意识缺失、物料逸出、设备故障等5个聚类;基于改进点互信息(Pointwise Mutual Information,PMI)的关键词共现网络可以得到事故的关键致因、环节、场所和事故类型,其中最重要且关联度较高的致因是人员操作不当和现场管理不力;最后,通过因子分析得到影响后果最严重的致因是危险作业环境,其次是违规操作或操作不当。提出的研究框架在更深入挖掘利用海量事故致因信息的同时,减少了事故致因评价指标的主观性,为结构复杂、非单一标准的事故报告文本信息提取提供了新的思路,同时将语义识别拓展到化工泄漏事故预防领域,有助于化工泄漏事故的风险识别、预测与防控。 展开更多
关键词 安全社会工程 化工事故 文本挖掘 语义识别 词频逆文档频率算法 潜在狄利克雷分配主题模型
在线阅读 下载PDF
基于词频统计的文本关键词提取方法 被引量:80
6
作者 罗燕 赵书良 +2 位作者 李晓超 韩玉辉 丁亚飞 《计算机应用》 CSCD 北大核心 2016年第3期718-725,共8页
针对传统TF-IDF算法关键词提取效率低下及准确率欠佳的问题,提出一种基于词频统计的文本关键词提取方法。首先,通过齐普夫定律推导出文本中同频词数的计算公式;其次,根据同频词数计算公式确定文本中各频次词语所占比重,发现文本中绝大... 针对传统TF-IDF算法关键词提取效率低下及准确率欠佳的问题,提出一种基于词频统计的文本关键词提取方法。首先,通过齐普夫定律推导出文本中同频词数的计算公式;其次,根据同频词数计算公式确定文本中各频次词语所占比重,发现文本中绝大多数是低频词;最后,将词频统计规律应用于关键词提取,提出基于词频统计的TFIDF算法。采用中、英文文本实验数据集进行仿真实验,其中推导出的同频词数计算公式平均相对误差未超过0.05;确立的各频次词语所占比重的最大误差绝对值为0.04;提出的基于词频统计的TF-IDF算法与传统TF-IDF算法相比,平均查准率、平均查全率和平均F1度量均有提高,而平均运行时间则均有降低。实验结果表明,在文本关键词提取中,基于词频统计的TF-IDF算法在查准率、查全率及F1指标上均优于传统TF-IDF算法,并能够有效减少关键词提取运行时间。 展开更多
关键词 词频统计 齐普夫定律 同频词 关键词提取 TF-IDF算法
在线阅读 下载PDF
一种基于词共现图的文档主题词自动抽取方法 被引量:30
7
作者 耿焕同 蔡庆生 +1 位作者 于琨 赵鹏 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2006年第2期156-162,共7页
主题词抽取是文本自动处理的基础性工作.在对现有主题词抽取方法深入研究的基础上,提出了一种基于词共现图的文档主题词自动抽取方法;该方法以基于词频统计方法为基础,利用在词共现图形成的主题信息以及不同主题间的连接特征信息自动地... 主题词抽取是文本自动处理的基础性工作.在对现有主题词抽取方法深入研究的基础上,提出了一种基于词共现图的文档主题词自动抽取方法;该方法以基于词频统计方法为基础,利用在词共现图形成的主题信息以及不同主题间的连接特征信息自动地提取文档中的主题词,旨在找出一些非高频词且又对主题贡献大的词.实验表明了该抽取方法抽取出的主题词更能准确地符合了作者的主题. 展开更多
关键词 自然语言处理 词共现图 主题词 tfidf
在线阅读 下载PDF
基于改进的TF-IDF算法及共现词的主题词抽取算法 被引量:19
8
作者 公冶小燕 林培光 +2 位作者 任威隆 张晨 张春云 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2017年第6期1072-1080,共9页
信息主题的抽取是快速定位用户需求的基础任务,主题词抽取时主要存在三个问题:一是词语权重的计算,二是词语间关系的度量,三是数据维度灾难.在计算词权重时首先利用互信息确定共现词对,与词频、词性、词位置信息非线性组合,然后,根据词... 信息主题的抽取是快速定位用户需求的基础任务,主题词抽取时主要存在三个问题:一是词语权重的计算,二是词语间关系的度量,三是数据维度灾难.在计算词权重时首先利用互信息确定共现词对,与词频、词性、词位置信息非线性组合,然后,根据词权重构建文档—共现词矩阵并建立潜在语义分析(Latent Semantic Analysis,LSA)模型.该方法借助LSA模型的奇异值分解(Singular Value Decomposition,SVD)将文档—共现词矩阵映射到潜在语义空间,不仅实现数据降维,而且获得低维度的文档相似矩阵.最后,对文档相似矩阵进行k-means聚类,在同类文档中选出词权重最大的前几对共现词,作为该类文章的主题词.对比基于TF-IDF(Term Frequency-Inverse Document Frequency)和共现词抽取主题词的实验,该算法的准确度分别提高了19%和10%. 展开更多
关键词 共现词 互信息 语义分析(LSA) 奇异值分解(SVD) term frequency-inverse document frequency(TF-IDF)
在线阅读 下载PDF
关键词拍卖的选词与出价策略研究 被引量:2
9
作者 吴纪芸 陈志德 +1 位作者 汪磊 王孟 《计算机工程》 CAS CSCD 北大核心 2015年第7期310-316,共7页
在关键词拍卖中,每个广告主都有成千上万的关键词可选,为了在预算限制条件下给选择的关键词设置合理的投标价格,提出一种新的基于广告主的拍卖策略,包括选词策略和出价策略。在选词策略中,提出基于词频-反转文件频率算法的关键词关联度... 在关键词拍卖中,每个广告主都有成千上万的关键词可选,为了在预算限制条件下给选择的关键词设置合理的投标价格,提出一种新的基于广告主的拍卖策略,包括选词策略和出价策略。在选词策略中,提出基于词频-反转文件频率算法的关键词关联度计算方法,通过该方法选出的关键词不仅能提高网站的关联度,增加转化率,还能避免因使用过度普遍的关键词而增加竞争成本。在出价策略中,运用改进的粒子群优化算法,在若干约束条件限制下对每个关键词的出价做适当调整,以增加广告主所获利润。实验结果表明,采用拍卖策略选出的关键词组可增加网站的转化率,降低竞争成本,所获得的利润比传统人为投标所获得的利润高,并且在初期和中期呈现持续上升趋势,后期趋于稳定。 展开更多
关键词 拍卖 选词策略 关联度 出价策略 词频-反转文件频率算法 粒子群优化
在线阅读 下载PDF
融合生成对抗网络和朴素贝叶斯皮肤病诊断方法 被引量:8
10
作者 商显震 韩萌 +4 位作者 孙毓忠 孙宇宁 陈旭 胡满满 梅御东 《计算机科学与探索》 CSCD 北大核心 2019年第6期1005-1015,共11页
不同皮肤病间发病率的差异导致了皮肤病数据类不平衡现象,对使用机器学习方法构建高效、准确的皮肤病诊断模型带来了巨大挑战。提出一种融合生成对抗网络(generative adversarial networks,GAN)和朴素贝叶斯的皮肤病二分类诊断方法:在... 不同皮肤病间发病率的差异导致了皮肤病数据类不平衡现象,对使用机器学习方法构建高效、准确的皮肤病诊断模型带来了巨大挑战。提出一种融合生成对抗网络(generative adversarial networks,GAN)和朴素贝叶斯的皮肤病二分类诊断方法:在皮肤病数据集上训练朴素贝叶斯二分类器作为诊断器,创新性地使用GAN为前者生成补充训练样本,使其训练集正负类样本达到平衡。针对皮肤病诊断多分类问题,提出一种融合生成对抗网络和朴素贝叶斯的多分类诊断方法:使用GAN和朴素贝叶斯训练皮肤病单病种二分类器,并结合了词频-逆文档频率算法(term frequency-inverse document frequency,TF-IDF),将多个二分类器组合成一个多分类器作为诊断器。与六种诊断方法进行了对比实验,提出的两种皮肤病诊断方法准确率和召回率均有提升。 展开更多
关键词 皮肤病诊断 朴素贝叶斯(NB) 词频-逆文档频率(TF-IDF)算法 生成对抗网络(GAN) 类不平衡数据
在线阅读 下载PDF
结合TF-IDF的歌曲情感多标记分类 被引量:4
11
作者 孙向琨 邓伟 《计算机工程》 CAS CSCD 北大核心 2011年第19期189-190,197,共3页
提出一种结合词频-逆向文件频率(TF-IDF)规则与多标记分类的歌曲情感分析方法。对歌曲中基于声学特征的音乐内容,用带向量夹角的多标记k近邻算法进行分类,将TF-IDF规则用于歌词内容,以计算歌词情感分数,并将其作为情感特征。采用该方法... 提出一种结合词频-逆向文件频率(TF-IDF)规则与多标记分类的歌曲情感分析方法。对歌曲中基于声学特征的音乐内容,用带向量夹角的多标记k近邻算法进行分类,将TF-IDF规则用于歌词内容,以计算歌词情感分数,并将其作为情感特征。采用该方法对歌词内容分类错误的类别标记进行修正。选用396首英文歌曲对该算法进行测试,结果表明,与其他方法相比,该方法能使分类精确度从69%提高到74%。 展开更多
关键词 多标记分类 歌曲情感分类 多标记k近邻算法 词频-逆向文件频率
在线阅读 下载PDF
基于类别重要度的MIMLBoost改进算法
12
作者 郝宁 夏士雄 +1 位作者 牛强 赵志军 《计算机应用》 CSCD 北大核心 2015年第11期3122-3125,共4页
针对多示例多标记学习算法MIMLBoost中退化过程造成的类别不平衡问题,运用人工降采样思想,引入类别重要度,提出一种改进的基于类别标记评估的退化方法。该方法通过对示例空间中的示例包进行聚类,把标记空间中的标记量化到聚类簇上,再以... 针对多示例多标记学习算法MIMLBoost中退化过程造成的类别不平衡问题,运用人工降采样思想,引入类别重要度,提出一种改进的基于类别标记评估的退化方法。该方法通过对示例空间中的示例包进行聚类,把标记空间中的标记量化到聚类簇上,再以聚类簇为单位,利用TF-IDF算法对每个类别标记进行重要度评估和筛选,去除重要度低的标记,并将簇中的示例包与其余的类别标记拼接起来,以此来减少大类样本的出现,完成多示例多标记样本向多示例单标记样本的转化。在自然数据集上进行了实验,实验结果发现,改进算法的性能整体上优于原算法,尤其在Hamming loss、coverage、ranking loss三个评测指标上尤为明显,说明所提算法能够有效降低分类的出错率,提高算法的精度和分类效率。 展开更多
关键词 多示例多标记 MIMIBoost算法 TF-IDF算法 聚类 类别不平衡
在线阅读 下载PDF
非编码碱基序列文献的挖掘
13
作者 安建福 孟丽莉 《上海交通大学学报(医学版)》 CAS CSCD 北大核心 2013年第10期1343-1347,共5页
目的应用神经网络算法提高非编码碱基序列文献的查全率和查准率。方法从PubMed数据库中选取样本。对样本处理后,应用词频(TF)×逆文档频率(IDF)方法选取特征项,建立基于后向传播(BP)神经网络算法的检索模型。结果在选取100个特征项... 目的应用神经网络算法提高非编码碱基序列文献的查全率和查准率。方法从PubMed数据库中选取样本。对样本处理后,应用词频(TF)×逆文档频率(IDF)方法选取特征项,建立基于后向传播(BP)神经网络算法的检索模型。结果在选取100个特征项时,查准率为91.49%,查全率为71.23%,受试者工作特征曲线下面积(ROC-AUC)为0.823,特异度为93.37%,灵敏度为71.23%,准确率为82.30%。结论该方法与常用的关键词、MeSH词等方法相比,不仅能够查准也能查全与主题相关的文献。 展开更多
关键词 非编码碱基序列 神经网络 后向传播算法 词频X逆文档频率 文献挖掘
在线阅读 下载PDF
融合标签的实值条件受限波尔兹曼机推荐算法 被引量:4
14
作者 张光荣 王宝亮 侯永宏 《计算机科学与探索》 CSCD 北大核心 2019年第1期138-146,共9页
针对推荐算法中数据的稀疏性难题,把用户标签融合至实值条件受限玻尔兹曼机(real-valued conditional restricted Boltzmann machine,R_CRBM)模型,利用R_CRBM强大的拟合任意离散分布的能力,预测出用户对未交互商品的评分缺失值。具体来... 针对推荐算法中数据的稀疏性难题,把用户标签融合至实值条件受限玻尔兹曼机(real-valued conditional restricted Boltzmann machine,R_CRBM)模型,利用R_CRBM强大的拟合任意离散分布的能力,预测出用户对未交互商品的评分缺失值。具体来说,首先提出显层单元为实值的R_CRBM模型,接着运用文本分类中的TF-IDF算法预测出用户对所应用过的标签的喜爱度,与标签基因数据相乘得到用户对商品的预测评分,融合至用户历史评分数据中。R_CRBM条件层在原有评分/未评分{0,1}向量中,融入用户标签/未标签{0,1}向量。通过真实数据集进行对比分析,实验结果表明提出的方法在一定程度上提升了推荐的准确性。 展开更多
关键词 推荐算法 用户标签 标签基因 TF-IDF 实值条件受限玻尔兹曼机(R_CRBM)
在线阅读 下载PDF
一种基于滑动窗口技术的邮件特征选择方法 被引量:3
15
作者 夏正新 《南京邮电大学学报(自然科学版)》 北大核心 2017年第6期103-110,共8页
在垃圾邮件过滤中,常用的方法是对邮件中的特征进行筛选,找出能够最有效代表邮件的相关特征,即在降低特征维度的同时,还能保持较高的召回率和精确率。文中提出了一种利用滑动窗口技术的特征选择方法用于改善垃圾邮件分类的效果。该方法... 在垃圾邮件过滤中,常用的方法是对邮件中的特征进行筛选,找出能够最有效代表邮件的相关特征,即在降低特征维度的同时,还能保持较高的召回率和精确率。文中提出了一种利用滑动窗口技术的特征选择方法用于改善垃圾邮件分类的效果。该方法分为两步,第一步通过基于相对文档-特征词频率差异的特征选择方法,生成正负相关的候选特征集合;第二步使用粒子群优化算法快速选择最好的特征子集,提高了垃圾邮件分类的效果。实验结果表明文中提出的方法要明显优于传统的方法。 展开更多
关键词 滑动窗口 文档-特征词频率差异 粒子群优化算法 特征选择 垃圾邮件
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部