期刊文献+
共找到40篇文章
< 1 2 >
每页显示 20 50 100
一种基于词频-逆文档频率和混合损失的表情识别算法 被引量:6
1
作者 蓝峥杰 王烈 聂雄 《计算机工程》 CAS CSCD 北大核心 2023年第1期295-302,310,共9页
面部表情能自然高效地表达人类的心理活动和思想状态,影响着人们的沟通交流过程。在诸多智能化应用中,人脸表情识别是人类与机器间建立情感交互的重要基础。在细粒度人脸表情识别任务中,由于特征提取网络对表情产生区域的关键特征处理不... 面部表情能自然高效地表达人类的心理活动和思想状态,影响着人们的沟通交流过程。在诸多智能化应用中,人脸表情识别是人类与机器间建立情感交互的重要基础。在细粒度人脸表情识别任务中,由于特征提取网络对表情产生区域的关键特征处理不足,从而引发细节特征信息丢失问题。提出一种词频-逆文档频率注意力机制TF-IDF SPA,通过该机制调整表情产生关键区域的注意力分布,强化网络对该区域关键细节特征的提取能力。同时,为了应对表情识别任务中普遍存在的类间差异小、类内差异大的问题,设计一种改进型混合加权损失函数,以增强表情类内聚拢性同时增大类间距离。依据数据集中样本的数量分布情况,动态调整损失函数的分类权重值,从而强化模型对小数据量样本的学习能力。在此基础上,将结构简单的TF-IDF SPA模块与卷积层共同堆叠以构建人脸表情识别网络。实验结果表明,该网络具有较好的人脸表情识别性能,在FER2013和CK+数据集上的分类准确率分别达到73.52%和98.27%。 展开更多
关键词 表情识别 FER2013数据集 CK+数据集 词频-文档频率 损失函数 注意力机制
在线阅读 下载PDF
应急决策文本的多维语义挖掘方法——基于TF-IDF和PMI的技术框架
2
作者 邓云峰 冯永康 王双燕 《中国安全生产科学技术》 北大核心 2025年第5期36-45,共10页
为了解读领导干部应急决策部署中内含的多维语义信息,了解其相关决策行为特征,进而保障突发事件的应对效果,本文提出基于TF-IDF和PMI的自然语言处理技术框架,挖掘应急决策文本中的多维语义信息,分析相关内容的关联性。首先通过Jieba分词... 为了解读领导干部应急决策部署中内含的多维语义信息,了解其相关决策行为特征,进而保障突发事件的应对效果,本文提出基于TF-IDF和PMI的自然语言处理技术框架,挖掘应急决策文本中的多维语义信息,分析相关内容的关联性。首先通过Jieba分词和LTP平台的依存句法分析,挖掘文本中的目标和行动信息,利用TF-IDF算法和词云图展示关键行动,然后通过PMI构建复杂网络,揭示行动间的关联性和决策偏好。研究结果表明:结合应急行动分类体系,TF-IDF算法能精确提取文本中目标和行动信息,以频次反映行动的受关注程度,为理解决策者的决心和意图提供支持;PMI和改良PMI方法能有效挖掘行动的共现关系,揭示行动之间的关联性和决策偏好,其中PMI方法适合分析行动之间的平均相关性,而改良PMI方法能识别出低频高权重的行动关联。研究结果可为分析决策行为特征,细化实化应急决策部署提供可扩展的支持性工具。 展开更多
关键词 应急决策文本 词频-文档频率 点互信息 关联性分析 复杂网络 依存句法分析
在线阅读 下载PDF
基于改进TF-IDF与BERT的领域情感词典构建方法 被引量:6
3
作者 蒋昊达 赵春蕾 +1 位作者 陈瀚 王春东 《计算机科学》 CSCD 北大核心 2024年第S01期150-158,共9页
领域情感词典的构建是领域文本情感分析的基础。现有的领域情感词典构建方法存在所筛选候选情感词冗余度高、情感极性判断失准、领域依赖性强等问题。为了提高所筛选候选情感词的领域性和判断领域情感词极性的准确程度,提出了一种基于... 领域情感词典的构建是领域文本情感分析的基础。现有的领域情感词典构建方法存在所筛选候选情感词冗余度高、情感极性判断失准、领域依赖性强等问题。为了提高所筛选候选情感词的领域性和判断领域情感词极性的准确程度,提出了一种基于改进词频-逆文档频率(TF-IDF)与BERT的领域情感词典构建方法。该方法在筛选领域候选情感词阶段对TF-IDF算法进行改进,将隐含狄利克雷分布(LDA)算法与改进后的TF-IDF算法结合,进行领域性修正,提升了所筛选候选情感词的领域性;在候选情感词极性判断阶段,将情感倾向点互信息算法(SO-PMI)与BERT结合,利用领域情感词微调BERT分类模型,提高了判断领域候选情感词情感极性的准确程度。在不同领域的用户评论数据集上进行实验,结果表明,该方法可以提高所构建领域情感词典的质量,使用该方法构建的领域情感词典用于汽车领域和手机领域文本情感分析的F1值分别达到78.02%和88.35%。 展开更多
关键词 情感分析 领域情感词典 词频-文档频率 隐含狄利克雷分布 情感倾向点互信息算法 BERT模型
在线阅读 下载PDF
融合TF-IDF和LDA的中文FastText短文本分类方法 被引量:33
4
作者 冯勇 屈渤浩 +2 位作者 徐红艳 王嵘冰 张永刚 《应用科学学报》 CAS CSCD 北大核心 2019年第3期378-388,共11页
FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocatio... FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocation, LDA)的中文FastText短文本分类方法.该方法在FastText文本分类模型的输入阶段对n元语法模型处理后的词典进行TF-IDF筛选,使用LDA模型进行语料库主题分析,依据所得结果对特征词典进行补充,从而在计算输入词序列向量均值时偏向高区分度的词条,使其更适用于中文短文本分类环境.对比实验结果可知,所提方法在中文短文本分类方面具有更高的精确率. 展开更多
关键词 中文短文本分类 FastText 词频-文本频率 词向量 隐含狄利克雷分布
在线阅读 下载PDF
基于TF-IDF和VOSviewer的我国应急救援现状可视化分析 被引量:5
5
作者 黄萍 张文龙 +2 位作者 叶圣琳 余君 余龙星 《中国安全科学学报》 CAS CSCD 北大核心 2023年第11期196-205,共10页
为有效利用消防救援队伍的实战记录资料挖掘应急救援战例成功经验,结合词频-逆文档频率(TF-IDF)算法和VOSviewer文献可视化分析技术,构建战例资料分析模型,分析战例成功与失败的共性规律和特点,总结我国应急救援现状及发展趋势。模型以2... 为有效利用消防救援队伍的实战记录资料挖掘应急救援战例成功经验,结合词频-逆文档频率(TF-IDF)算法和VOSviewer文献可视化分析技术,构建战例资料分析模型,分析战例成功与失败的共性规律和特点,总结我国应急救援现状及发展趋势。模型以2007—2019年间共185起应急救援典型战例为数据库,按照自然灾害、交通事故、建筑坍塌、危化品泄漏、火灾扑救等应急救援行动类型展开分析。结果表明:我国应急救援行动的影响因素主要表现在人(救援队伍)、机(装备技术)、环(环境)、管(管理)4个方面。其中,环境因素的影响几乎都是负面的,其他3个因素均有正负面影响。此外,不同应急救援行动类型的主导影响因素存在差异,自然灾害突出“机”;交通事故突出“管”;建筑坍塌突出“机”“环”;危化品泄漏在“人机环管”4个方面均有突出问题;火灾救援突出“机”。 展开更多
关键词 词频-文档频率(tf-idf) VOSviewer 应急救援 消防救援 可视化分析 战例分析
在线阅读 下载PDF
结合TF-IDF的企业生产隐患关联预警及可视化研究 被引量:13
6
作者 胡瑾秋 张曦月 吴志强 《中国安全科学学报》 CAS CSCD 北大核心 2019年第7期170-176,共7页
为有效利用企业在日常管理中积累的大量生产事故隐患记录,实现隐患预警,解决人工分析数据效率低、主观性强等问题,构建结合词频率-逆文档频率(TF-IDF)的企业生产隐患关联预警可视化模型。首先,运用先验(Apriori)关联规则算法挖掘各隐患... 为有效利用企业在日常管理中积累的大量生产事故隐患记录,实现隐患预警,解决人工分析数据效率低、主观性强等问题,构建结合词频率-逆文档频率(TF-IDF)的企业生产隐患关联预警可视化模型。首先,运用先验(Apriori)关联规则算法挖掘各隐患间的潜在联系,获取信息中的隐藏价值;然后,引入TF-IDF算法优化关联规则,找出隐患间的关键规则;最后,运用可视化技术直观地展现挖掘结果。研究表明:可视化模型能快速、准确地实现隐患预警;对关联规则的优化,解决了Apriori算法支持度依赖性强的问题;挖掘结果能为企业安全管理者提供整改方向与依据。 展开更多
关键词 词频-文档频率(tf-idf) 先验(Apriori)关联分析 优化排序 隐患预警 文本可视化
在线阅读 下载PDF
文本分类TF-IDF算法的改进研究 被引量:117
7
作者 叶雪梅 毛雪岷 +1 位作者 夏锦春 王波 《计算机工程与应用》 CSCD 北大核心 2019年第2期104-109,161,共7页
中国互联网环境的发展,让大量蕴含丰富信息的新词得以普及。而传统的特征词权重TF-IDF(Term Frequency and Inverted Document Frequency)算法主要考虑TF和IDF两个方面的因素,未考虑到新词这一新兴词类的优势。针对特征项中的新词对分... 中国互联网环境的发展,让大量蕴含丰富信息的新词得以普及。而传统的特征词权重TF-IDF(Term Frequency and Inverted Document Frequency)算法主要考虑TF和IDF两个方面的因素,未考虑到新词这一新兴词类的优势。针对特征项中的新词对分类结果的影响,提出基于网络新词改进文本分类TF-IDF算法。在文本预处理中识别新词,并在向量空间模型表示中改变特征权重计算公式。实验结果表明把新词发现加入文本预处理,可以达到特征降维的目的,并且改进后的特征权重算法能优化文本分类的结果。 展开更多
关键词 新词 词频-文档频率(tf-idf) 向量空间模型 文本分类
在线阅读 下载PDF
基于TF-IDF分类算法的雷达情报分发技术 被引量:8
8
作者 余苗 杨瑞娟 +2 位作者 程伟 高路 程红斌 《计算机工程与设计》 CSCD 北大核心 2012年第5期1822-1826,共5页
为了提高情报分发的效率,解决雷达组网上信息过载的问题,提出了一种利用个性化推荐技术过滤情报用户感兴趣的情报信息的技术。根据情报用户兴趣多样性的特点和雷达情报的格式化特征,对情报用户兴趣的类别进行划分,并设计出基于层次向量... 为了提高情报分发的效率,解决雷达组网上信息过载的问题,提出了一种利用个性化推荐技术过滤情报用户感兴趣的情报信息的技术。根据情报用户兴趣多样性的特点和雷达情报的格式化特征,对情报用户兴趣的类别进行划分,并设计出基于层次向量空间模型;在此基础上,利用用户的历史情报信息和定制信息,运用TF-IDF算法挖掘用户兴趣,建立用户兴趣模型,通过实时情报与用户兴趣模型的匹配,将用户感兴趣的情报分发给用户。仿真实验结果表明,该算法能够较好地实现雷达情报的按需分发。 展开更多
关键词 情报按需分发 个性化推荐 层次向量空间模型 兴趣模型 词频-文档频率
在线阅读 下载PDF
一种改进型TF-IDF文本聚类方法 被引量:17
9
作者 张蕾 姜宇 孙莉 《吉林大学学报(理学版)》 CAS 北大核心 2021年第5期1199-1204,共6页
针对传统词频-逆文档频率(TF-IDF)算法对具有特定属性的文本分类存在的不足,尤其是词汇在特定分类中具有特殊意义情形下准确率较低的问题,提出一种改进的TF-IDF文本聚类算法.采用2015—2019年吉林省科研机构发表论文数据进行对比实验,... 针对传统词频-逆文档频率(TF-IDF)算法对具有特定属性的文本分类存在的不足,尤其是词汇在特定分类中具有特殊意义情形下准确率较低的问题,提出一种改进的TF-IDF文本聚类算法.采用2015—2019年吉林省科研机构发表论文数据进行对比实验,分别用改进TF-IDF算法和传统TF-IDF算法先统计论文中的关键词词频,再通过K-means++算法进行聚类,最后使用随机森林算法分别评估聚类的准确性.实验结果表明,改进TF-IDF算法提高了分类的准确率. 展开更多
关键词 词频-文档频率(tf-idf) 混合聚类 交叉学科 基本科学指标数据库(ESI)文献
在线阅读 下载PDF
基于改进TF-IDF可疑人员文本表示方法 被引量:5
10
作者 何隽飞 赵慧 何学明 《计算机工程与设计》 北大核心 2021年第2期396-401,共6页
为解决重大安保任务中,情报人员在进行可疑人员情报研判时效率低下的问题,提出一种面向情报研判的可疑人员文本表示方法。针对可疑人员信息库的特点,将文本分类领域的文本表示方法应用到情报研判领域,引入文本类别参数,改进TF-IDF算法,... 为解决重大安保任务中,情报人员在进行可疑人员情报研判时效率低下的问题,提出一种面向情报研判的可疑人员文本表示方法。针对可疑人员信息库的特点,将文本分类领域的文本表示方法应用到情报研判领域,引入文本类别参数,改进TF-IDF算法,提升算法提取分类特征的能力;通过属性加权的文本表示方法将可疑人员信息制作成特征向量,使用支持向量机实现可疑人员情报研判。实验验证了该方法的可行性,其研判精确率达到98.8%,满足实际研判任务要求的标准,为情报人员提供了高质量的研判参考。 展开更多
关键词 可疑人员 情报研判 文本表示 词频-文档频率 词向量
在线阅读 下载PDF
民用无人机事故致因文本挖掘和社会网络分析
11
作者 李柯 王东煌 罗帆 《安全与环境学报》 北大核心 2025年第7期2709-2716,共8页
为明确民用无人机事故致因及其关联性,借助文本挖掘技术完成122份民用无人机事故报告的结构化处理,采用词频-逆文档频率(Term Frequency-Inverse Document Frequency, TF-IDF)算法提取出23项事故致因关键词;运用社会网络分析(Social Net... 为明确民用无人机事故致因及其关联性,借助文本挖掘技术完成122份民用无人机事故报告的结构化处理,采用词频-逆文档频率(Term Frequency-Inverse Document Frequency, TF-IDF)算法提取出23项事故致因关键词;运用社会网络分析(Social Network Analysis, SNA)方法和Gephi、Ucinet等软件构建民用无人机事故致因共现网络,完成网络中心性分析和核心边缘结构分析,以了解各事故致因节点的重要性和网络结构特征。结果表明:机械结构故障、动力系统故障等源自无人机自身的致因是造成事故的主要原因;飞行失控、检查不足、天气意外因素等8项致因位于致因网络的核心区域,归属于核心致因,其余15项为边缘致因;基于核心致因构建并分析核心-边缘致因集合,有助于为民用无人机事故防控提供对策建议,从而促进低空经济产业健康有序发展。 展开更多
关键词 安全工程 文本挖掘 社会网络分析 词频-文档频率 无人机事故
在线阅读 下载PDF
基于文本挖掘的民航飞行风险评价指标研究
12
作者 汪磊 安佳宁 史少铭 《安全与环境学报》 北大核心 2025年第3期825-834,共10页
为定量评价民航飞行风险,研究提出一种基于文本挖掘的民航飞行风险评价指标识别方法。该方法聚焦于冲偏出跑道、可控飞行撞地、空中失控3类典型核心风险事件,收集全球运输航空2008-2023年相关事故调查报告共210篇。利用词频与逆文档频... 为定量评价民航飞行风险,研究提出一种基于文本挖掘的民航飞行风险评价指标识别方法。该方法聚焦于冲偏出跑道、可控飞行撞地、空中失控3类典型核心风险事件,收集全球运输航空2008-2023年相关事故调查报告共210篇。利用词频与逆文档频率算法(Term Frequency-Inverse Document Frequency,TF-IDF)和潜在狄利克雷分布主题模型(Latent Dirichlet Allocation,LDA)提取语料中主题及关键词,参考航空公司飞行品质监控标准文件,归纳3类核心风险评价指标,并结合相关文献规范,构建民航飞行风险评价指标体系。采集某航空公司B737-800机型60条航班数据,对评价指标体系的合理性开展实例验证。结果显示:该方法能够客观高效地识别飞行风险指标,实现了对5名飞行员个体风险的量化排序。研究结果可应用于飞行风险评价,为后续建立风险量化模型奠定基础。 展开更多
关键词 安全工程 风险评价 文本挖掘 词频文档频率 潜在迪利克雷分布
在线阅读 下载PDF
基于TI-Rank的弹幕关键词提取方法 被引量:3
13
作者 何梓源 张仰森 +1 位作者 吴云芳 亓文法 《计算机工程与设计》 北大核心 2022年第2期580-586,共7页
为提供准确且更贴近日常用语的关键词,针对视频弹幕内容提出一种基于TI-RANK(TTF-ICDF-DWTextRank)的词频词义相结合的关键词提取模型。将标题内容进行分类得到标题的关键信息,将该信息用于词频提取构建TTF算法;进一步考虑词频与篇章数... 为提供准确且更贴近日常用语的关键词,针对视频弹幕内容提出一种基于TI-RANK(TTF-ICDF-DWTextRank)的词频词义相结合的关键词提取模型。将标题内容进行分类得到标题的关键信息,将该信息用于词频提取构建TTF算法;进一步考虑词频与篇章数对提取效果的影响,通过分段函数构建ICDF算法;引入语义维度信息并利用中文拼音作为编辑距离的计算单元构建DWTextRank模型。实验结果表明,TI-RANK模型提取关键词的F1值达到0.8以上,相较传统TF-IDF和TextRank算法提高了约20%。为更合理评价关键词提取的准确率,按照关键词重要程度降序排列定义三级梯度评价标准,该标准能够更好体现出排序靠前关键词的正确性对准确率的影响。 展开更多
关键词 词频-文档频率 文本关键词抽取 词频词义关键词提取 三级梯度评价标准 视频弹幕
在线阅读 下载PDF
基于语义空间的抽取式单文档摘要方法
14
作者 杨山 杨雅婷 +1 位作者 温正阳 米成刚 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2019年第2期237-242,共6页
目前的抽取式单文档摘要方法未考虑原文中句子和原文语义信息相关度,针对该问题,提出一种基于语义空间的抽取式单文档摘要方法.首先,利用Word2Vec训练词向量以获取语义空间,并基于该语义空间表示句子和原文;然后,基于余弦相似度计算句... 目前的抽取式单文档摘要方法未考虑原文中句子和原文语义信息相关度,针对该问题,提出一种基于语义空间的抽取式单文档摘要方法.首先,利用Word2Vec训练词向量以获取语义空间,并基于该语义空间表示句子和原文;然后,基于余弦相似度计算句子与原文相似度值,并使用TextRank和词频-逆文本频率指数(TF-IDF)模型计算原文中句子的权重;最后,将相似度值与权重相结合得到句子的最终权重值.实验结果表明,该模型摘要质量优于基于深度学习的基线系统. 展开更多
关键词 文本摘要 Word2Vec TextRank 词频文本频率指数 句子-原文相似度 序列到序列
在线阅读 下载PDF
基于广泛相似度的维吾尔语文档分类方案
15
作者 如先姑力.阿布都热西提 亚森.艾则孜 年梅 《计算机工程与设计》 北大核心 2017年第6期1686-1691,共6页
针对维吾尔语文档自动分类问题,提出一种基于广泛相似度度量和K-means聚类的文档分类方案。将维吾尔语文档进行预处理,通过词频-逆向文档频率(TF-IDF)算法获得关键词集合;利用提出的广泛相似度度量,通过考虑与语料库中其它文档之间的距... 针对维吾尔语文档自动分类问题,提出一种基于广泛相似度度量和K-means聚类的文档分类方案。将维吾尔语文档进行预处理,通过词频-逆向文档频率(TF-IDF)算法获得关键词集合;利用提出的广泛相似度度量,通过考虑与语料库中其它文档之间的距离,计算文档间的相似度;基于广泛相似度构建一个集群距离矩阵,获得一组基础集群;将基础集群的中心作为K-means聚类的初始中心,完成所有文档的聚类。实验结果表明,该方案具有较高的分类精度和较低的计算时间。 展开更多
关键词 维吾尔语 文档分类 广泛相似度 K-MEANS聚类 词频-文档频率
在线阅读 下载PDF
意象驱动的产品造型智能设计方法
16
作者 苏建宁 鱼宝银 +2 位作者 李雄 张志鹏 郭睿 《机械设计》 CSCD 北大核心 2024年第8期115-120,共6页
为更准确地挖掘用户情感偏好,采用人工智能技术辅助设计满足需求的产品方案,提出一种意象驱动的产品造型智能设计方法。对产品在线评论数据进行筛选,应用词频-逆文件频率技术(Term Frequency-Inverse Document Frequence,TF-IDF)提取描... 为更准确地挖掘用户情感偏好,采用人工智能技术辅助设计满足需求的产品方案,提出一种意象驱动的产品造型智能设计方法。对产品在线评论数据进行筛选,应用词频-逆文件频率技术(Term Frequency-Inverse Document Frequence,TF-IDF)提取描述产品造型的代表性感性意象词汇,经聚类分析后获得目标意象,并结合语义差分量表获得样本意象评价值;采用GoogLeNet卷积神经网络构建意象回归模型,预测其余样本评分,获得意象评价数据;针对不同意象进行样本构成元素解构,依据重要度排序设置训练提示词;最后通过微调稳定扩散模型(Stable Diffusion XL,SDXL),构建低秩适应(Low-Rank Adaption,LoRA)意象造型生成模型。以吹风机为例实现目标感性意象的创新设计方案生成,验证了方法的可行性与合理性,可有效指导产品的创新设计。 展开更多
关键词 产品造型 感性意象 智能设计 词频-文件频率技术 GoogLeNet LoRA
在线阅读 下载PDF
社会网络环境下双驱动DEMATEL的群智知识融合应急决策方法 被引量:5
17
作者 陈兆芳 黄鹏城 黄文翰 《安全与环境学报》 CAS CSCD 北大核心 2024年第6期2336-2347,共12页
针对多属性应急群决策中决策属性缺少数据支持和公众难以参与决策过程的问题,提出了一种使用信任网络计算专家权重和融合公众知识与专家知识的双驱动模型的应急决策方法。首先,考虑传统模型只能依赖主观经验的不足,通过分析社交媒体中... 针对多属性应急群决策中决策属性缺少数据支持和公众难以参与决策过程的问题,提出了一种使用信任网络计算专家权重和融合公众知识与专家知识的双驱动模型的应急决策方法。首先,考虑传统模型只能依赖主观经验的不足,通过分析社交媒体中的文本数据来获得公众意见,并使用词频-逆文档频率算法(Term Frequency-Inverse Document Frequency, TF-IDF)提取意见中的关键信息,以公众大数据来获得数据驱动因素,同时,通过决策专家提供的专家知识,为决策过程提供知识驱动因素,构成双驱动的决策实验室分析法(Decision Making Trial and Evaluation Laboratory, DEMATEL)模型来建立评价属性体系,模型中影响因素的相互作用程度由公众大数据与专家评价共同决定,以得到公众知识数据与专家知识评价融合的结果;其次,使用社会网络表示专家之间的信任关系与信任强度,并通过Louvain算法对专家进行聚类,通过社会网络中节点的度中心性与接近中心性,得到个体的权重进而计算出各聚类权重,使用直觉模糊加权平均算子(Iterative Fuzzy Weighted Averaging, IFWA)结合决策偏好与属性权重,通过得分函数计算备选方案的得分,并依据得分结果对方案排序以得到最优的解决方案;最后,结合“7·20”郑州市突发暴雨案例证明了本方法的可行性和有效性。 展开更多
关键词 公共安全 决策实验室分析法(DEMATEL) 应急决策 词频-文档频率算法(tf-idf) 群智融合
在线阅读 下载PDF
语义识别驱动的化工泄漏事故事前预防研究 被引量:3
18
作者 刘勤明 董宏霖 孔得朝 《安全与环境学报》 CAS CSCD 北大核心 2024年第12期4734-4742,共9页
化工泄漏事故报告蕴含事故信息量大,但利用度低,仅依赖传统的事故分析理论和方法对事故后果进行分析统计难以实现事前预防、控制损失最小化的目的,因此,构建了语义识别驱动的化工泄漏事故事前预防研究框架,基于潜在狄利克雷分配(Latent ... 化工泄漏事故报告蕴含事故信息量大,但利用度低,仅依赖传统的事故分析理论和方法对事故后果进行分析统计难以实现事前预防、控制损失最小化的目的,因此,构建了语义识别驱动的化工泄漏事故事前预防研究框架,基于潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)主题模型提取化工泄漏事故致因主题及关键词,利用关键词共现网络分析进行致因中心性和关联度分析,使用因子分析进行致因影响因子的计算,实现了对化工泄漏事故报告潜在信息的挖掘和有效分析。结果表明:通过LDA模型可以计算得到化工泄漏事故致因主题,得出安全意识缺失、物料逸出、设备故障等5个聚类;基于改进点互信息(Pointwise Mutual Information,PMI)的关键词共现网络可以得到事故的关键致因、环节、场所和事故类型,其中最重要且关联度较高的致因是人员操作不当和现场管理不力;最后,通过因子分析得到影响后果最严重的致因是危险作业环境,其次是违规操作或操作不当。提出的研究框架在更深入挖掘利用海量事故致因信息的同时,减少了事故致因评价指标的主观性,为结构复杂、非单一标准的事故报告文本信息提取提供了新的思路,同时将语义识别拓展到化工泄漏事故预防领域,有助于化工泄漏事故的风险识别、预测与防控。 展开更多
关键词 安全社会工程 化工事故 文本挖掘 语义识别 词频文档频率算法 潜在狄利克雷分配主题模型
在线阅读 下载PDF
基于VSM的文本相似度计算的研究 被引量:101
19
作者 郭庆琳 李艳梅 唐琦 《计算机应用研究》 CSCD 北大核心 2008年第11期3256-3258,共3页
文本相似度的计算作为其他文本信息处理的基础和关键,其计算准确率和效率直接影响其他文本信息处理的结果。提出改进的DF算法和TD-IDF算法,一方面利用了DF算法具有线性的时间复杂度,比较适合大规模文本处理的特点,并通过适当增加关键词... 文本相似度的计算作为其他文本信息处理的基础和关键,其计算准确率和效率直接影响其他文本信息处理的结果。提出改进的DF算法和TD-IDF算法,一方面利用了DF算法具有线性的时间复杂度,比较适合大规模文本处理的特点,并通过适当增加关键词的方法,弥补了其对个别有用信息错误过滤的不足;另一方面,利用特征项在特征选择阶段的权重对TD-IDF方法进行加权处理,在不增加开销的情况下扩大了文档集的规模,还提高了相似度计算的精确度。 展开更多
关键词 文本相似度 特征选择 词频文档频率 向量空间模型
在线阅读 下载PDF
基于MRMR的文本分类特征选择方法 被引量:9
20
作者 李军怀 付静飞 +2 位作者 蒋文杰 费蓉 王怀军 《计算机科学》 CSCD 北大核心 2016年第10期225-228,共4页
特征选择是文本分类技术中重要的处理步骤,特征词选择的优劣直接关系到后续文本分类结果的准确率。使用传统特征选择方法如互信息(MI)、信息增益(IG)、χ2统计量(CHI)等提取的特征词仍存在冗余。针对这一问题,通过结合词频-逆文档率(TF_... 特征选择是文本分类技术中重要的处理步骤,特征词选择的优劣直接关系到后续文本分类结果的准确率。使用传统特征选择方法如互信息(MI)、信息增益(IG)、χ2统计量(CHI)等提取的特征词仍存在冗余。针对这一问题,通过结合词频-逆文档率(TF_IDF)和最大相关最小冗余标准(MRMR),提出了一种基于MRMR的特征词二次选取方法 TFIDF_MRMR。实验结果表明,该方法可以较好地减少特征词之间的冗余,提高文本分类的准确率。 展开更多
关键词 特征选择 最大相关最小冗余 词频-文档 文本分类
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部