期刊文献+
共找到23篇文章
< 1 2 >
每页显示 20 50 100
融合大语言模型和语义聚类的电信网络诈骗引流话术文本分析
1
作者 石拓 曾昭龙 韩娜 《情报杂志》 北大核心 2025年第10期105-112,共8页
[研究目的]电信网络诈骗犯罪引流话术层出不穷,及时掌握引流话术新态势极为关键,能够为诈骗被害预警和精准阻断提供有力决策依据。[研究方法]通过融合运用大语言模型的思维链提示和基于SBERT的聚类方法,形成面向引流话术文本的分析框架... [研究目的]电信网络诈骗犯罪引流话术层出不穷,及时掌握引流话术新态势极为关键,能够为诈骗被害预警和精准阻断提供有力决策依据。[研究方法]通过融合运用大语言模型的思维链提示和基于SBERT的聚类方法,形成面向引流话术文本的分析框架,精准解析电信网络诈骗引流话术主题模式与语义策略。[研究结果/结论]实证研究表明跑分支付、虚假福利骗局、地推兼职等是当前涉诈黑灰产引流的核心主题,同时揭示出电信网络诈骗引流话术均是以高收益、低门槛为诱导方式,吸引被害人陷入骗局,为公安机关开展电信网络诈骗犯罪态势分析和前置预警防范工作提供有力支持。 展开更多
关键词 大语言模型 思维链 语义聚类 引流话术 文本分析 电信网络诈骗
在线阅读 下载PDF
一种融合PLSA模型和树模型的文本病历语义分析新方法
2
作者 黄文博 燕杨 李博 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2013年第4期666-670,共5页
将文本语义分析领域中的概率潜语义分析(PLSA)模型和语义树模型进行融合,设计一种新模型,并将其应用在文本病历语义分析上,较好地解决了文本病历语义分析过程中存在的"多词一义"情况,降低了语义维度,简化了窗口语义树的结构.... 将文本语义分析领域中的概率潜语义分析(PLSA)模型和语义树模型进行融合,设计一种新模型,并将其应用在文本病历语义分析上,较好地解决了文本病历语义分析过程中存在的"多词一义"情况,降低了语义维度,简化了窗口语义树的结构.通过语义分解和语义检索实验证明了该模型在文本病历语义分析上的优势. 展开更多
关键词 PLSA-tree模型 文本病历 语义分析 新方法
在线阅读 下载PDF
语义分析与词频统计相结合的中文文本相似度量方法研究 被引量:42
3
作者 华秀丽 朱巧明 李培峰 《计算机应用研究》 CSCD 北大核心 2012年第3期833-836,共4页
基于统计的文本相似度量方法大多先采用TF-IDF方法将文本表示为词频向量,然后利用余弦计算文本之间的相似度。此类方法由于忽略文本中词项的语义信息,不能很好地反映文本之间的相似度。基于语义的方法虽然能够较好地弥补这一缺陷,但需... 基于统计的文本相似度量方法大多先采用TF-IDF方法将文本表示为词频向量,然后利用余弦计算文本之间的相似度。此类方法由于忽略文本中词项的语义信息,不能很好地反映文本之间的相似度。基于语义的方法虽然能够较好地弥补这一缺陷,但需要知识库来构建词语之间的语义关系。研究了以上两类文本相似度计算方法的优缺点,提出了一种新颖的文本相似度量方法,该方法首先对文本进行预处理,然后挑选TF-IDF值较高的词项作为特征项,再借助HowNet语义词典和TF-IDF方法对特征项进行语义分析和词频统计相结合的文本相似度计算,最后利用文本相似度在基准文本数据集合上进行聚类实验。实验结果表明,采用提出的方法得到的F-度量值明显优于只采用TF-IDF方法或词语语义的方法,从而证明了提出的文本相似度计算方法的有效性。 展开更多
关键词 向量空间模型 语义分析 词频 概率分布 文本相似度
在线阅读 下载PDF
基于潜在语义分析的中文文本层次分类技术 被引量:15
4
作者 王怡 盖杰 +1 位作者 武港山 王继成 《计算机应用研究》 CSCD 北大核心 2004年第8期151-154,165,共5页
从网络文本自动分类的需求出发 ,针对基于VSM模型的分类处理中词条无关假设和词条维度过高等问题 ,对基于类中心向量的分类方法进行了改进。利用LSA分析中的SVD分解获得Web文档的语义特征向量 ,并在此基础上进行分类处理 ,在不损害分类... 从网络文本自动分类的需求出发 ,针对基于VSM模型的分类处理中词条无关假设和词条维度过高等问题 ,对基于类中心向量的分类方法进行了改进。利用LSA分析中的SVD分解获得Web文档的语义特征向量 ,并在此基础上进行分类处理 ,在不损害分类精度的同时提高了分类及其后处理速度 ,并设计实现了一个原型系统。 展开更多
关键词 潜在语义分析 类重心分类 向量空间模型 文本分类 特征向量
在线阅读 下载PDF
基于潜在语义分析的文本连贯性分析 被引量:3
5
作者 汤世平 樊孝忠 朱建勇 《计算机应用与软件》 CSCD 北大核心 2008年第2期95-96,共2页
文本连贯性分析是计算机辅助评估中的重要内容,是对文本的表达质量进行评估的基础。提出一种将潜在语义分析方法与基于有序聚类的层次分析方法相结合的文本层次结构分析方法,该方法保证了层次划分的有序性,可操作性强,不依赖于具体领域... 文本连贯性分析是计算机辅助评估中的重要内容,是对文本的表达质量进行评估的基础。提出一种将潜在语义分析方法与基于有序聚类的层次分析方法相结合的文本层次结构分析方法,该方法保证了层次划分的有序性,可操作性强,不依赖于具体领域。基本思想是:对于输入文本,首先识别文本物理结构,然后将文本依据主题划分为若干层次,最终获得文本的逻辑结构。实验结果表明,该方法是有效的,其准确率达到74.96%。 展开更多
关键词 向量空间模型 潜在语义分析 文本连贯性 计算机辅助评估
在线阅读 下载PDF
以文本为基础的社会科学研究:从内容分析到算法模型 被引量:3
6
作者 胡安宁 《学术论坛》 CSSCI 北大核心 2022年第1期1-8,共8页
文章系统讨论了社会科学研究中以文本为基础的多种方法论,将其分类为以传统内容分析为代表的诠释导向的文本探索方法,以语义网分析和量化叙事分析为代表的诠释与结构并重的文本探索方法以及以主题模型和词嵌入模型为代表的结构导向的文... 文章系统讨论了社会科学研究中以文本为基础的多种方法论,将其分类为以传统内容分析为代表的诠释导向的文本探索方法,以语义网分析和量化叙事分析为代表的诠释与结构并重的文本探索方法以及以主题模型和词嵌入模型为代表的结构导向的文本探索方法。这些方法提出的历史时间点各不相同,呈现出一定的先后次序性,因此通过对比不同类型的方法分析策略,文章展示了以文本为基础的社会科学研究方法论的变迁图景。这一图景在研究目标上,从诠释逐渐转向因果和预测;在研究手段上,从人工为主导逐渐转向机器为主导;在研究对象上,从对意义的寻求逐渐转向对结构的探究。围绕着日渐兴起的以算法为导向的社会科学文本分析技术,文章从数据清洗、数据过拟合和结果验证三个方面讨论了其潜在的局限和未来发展的方向。 展开更多
关键词 文本挖掘 内容分析 语义分析 量化叙事 主题模型 词嵌入模型
在线阅读 下载PDF
利用N-gram和语义分析的维吾尔语文本相似性检测方法 被引量:2
7
作者 张莹 亚森·艾则孜 吴顺祥 《计算机应用研究》 CSCD 北大核心 2019年第9期2722-2725,2729,共5页
为了实现维吾尔语文本的相似性检测,提出一种基于N-gram和语义分析的相似性检测方法。根据维吾尔语单词特征,采用了N-gram统计模型来获得词语,并根据词语在文本中的出现频率来构建词语-文本关系矩阵,并作为文本模型。采用了潜在语义分析... 为了实现维吾尔语文本的相似性检测,提出一种基于N-gram和语义分析的相似性检测方法。根据维吾尔语单词特征,采用了N-gram统计模型来获得词语,并根据词语在文本中的出现频率来构建词语-文本关系矩阵,并作为文本模型。采用了潜在语义分析(LSA)来获得词语及其文本之间的隐藏关联,以此解决维吾尔语词义模糊的问题,并获得准确的相似度。在包含重组和同义词替换的剽窃文本集上进行实验,结果表明该方法能够准确有效地检测出相似性。 展开更多
关键词 维吾尔语 文本相似性检测 N-gram统计模型 潜在语义分析
在线阅读 下载PDF
基于注意力机制的深层特征融合MOOC评论情感分析
8
作者 韦金矿 贾灿 +1 位作者 王鹏飞 艾孜尔古丽·玉素甫 《现代电子技术》 北大核心 2025年第14期63-70,共8页
在线教育因大众对多样化学习的渴求及技术进步而迅猛发展。分析中国大学MOOC网站上在线评论的情感倾向,对于课程的优化及平台的高质量发展具有重要意义。针对目前文本情感分析任务中存在的难以充分提取和融合文本特征信息、泛化性能不... 在线教育因大众对多样化学习的渴求及技术进步而迅猛发展。分析中国大学MOOC网站上在线评论的情感倾向,对于课程的优化及平台的高质量发展具有重要意义。针对目前文本情感分析任务中存在的难以充分提取和融合文本特征信息、泛化性能不足的问题,提出一种基于注意力机制的深层特征融合MOOC评论情感分析模型,即BERT-RAP。利用BERT提取出文本的丰富语义,通过BiLSTM进一步提取序列信息来更好地捕捉文本的特征表达,同时采用注意力机制捕捉序列中最相关的部分;之后对MOOC评论文本进行关键词提取,并将关键词词嵌入与注意力加权的BiLSTM输出通过亲和力矩阵进行特征交互,以便模型融合不同的特征来挖掘更深层的语义。由于数据可能存在较大离群值,采用百分比池化方法在一定程度上降低模型对离群值的敏感程度,从而提高模型的鲁棒性。最后通过情感分类器获得文本所属情感。实验结果表明,在MOOC评论数据集上,与文本情感分析基线模型相比,所提模型情感分类效果更佳。 展开更多
关键词 MOOC评论文本 情感分析 语义提取 特征融合 BERT模型 BiLSTM 自注意力机制 百分比池化方法
在线阅读 下载PDF
基于情感角色模型的文本情感分类方法 被引量:3
9
作者 胡杨 戴丹 +3 位作者 刘骊 冯旭鹏 刘利军 黄青松 《计算机应用》 CSCD 北大核心 2015年第5期1310-1313,1319,共5页
针对传统情感分类方法因情感项指向不明引发的误判和隐藏观点遗漏等问题,提出一种基于评价对象情感角色模型的文本情感分类方法。该方法首先识别文本中的潜在评价对象,通过局部语义分析对潜在评价对象所在语句进行情感标注,确定潜在评... 针对传统情感分类方法因情感项指向不明引发的误判和隐藏观点遗漏等问题,提出一种基于评价对象情感角色模型的文本情感分类方法。该方法首先识别文本中的潜在评价对象,通过局部语义分析对潜在评价对象所在语句进行情感标注,确定潜在评价对象所在语句的正负极性,并定义其情感角色;然后,改进特征权值计算方法,将情感角色对应的倾向值融入模型特征空间中;最后,通过特征聚合对特征空间实现模型降维。实验结果表明,所提方法与提取强主观性情感项作为特征的情感分类方法相比,分类准确率约提高3.2%,可有效改善文本情感分类效果。 展开更多
关键词 文本情感分类 向量空间模型 局部语义分析 情感角色 特征聚合
在线阅读 下载PDF
基于特征融合的中文文本情感分析方法 被引量:10
10
作者 赵宏 傅兆阳 王乐 《兰州理工大学学报》 CAS 北大核心 2022年第3期94-102,共9页
针对现有的中文文本情感分析方法不能从句法结构、上下文信息和局部语义特征等方面综合考量文本语义信息的问题,提出一种基于特征融合的中文文本情感分析方法.首先,采用Jieba分词工具对评论文本进行分词和词性标注,并采用词向量训练工具... 针对现有的中文文本情感分析方法不能从句法结构、上下文信息和局部语义特征等方面综合考量文本语义信息的问题,提出一种基于特征融合的中文文本情感分析方法.首先,采用Jieba分词工具对评论文本进行分词和词性标注,并采用词向量训练工具GloVe获取融入词性的预训练词向量;然后,将词向量分别作为引入Self-Attention的BiGRU和TextCNN的输入,使用引入Self-Attention的BiGRU从文本的句法结构和文本的上下文信息两个方面综合提取全局特征,使用TextCNN提取文本的局部语义特征;最后,将全局特征和局部语义特征进行融合,并使用Softmax进行文本情感分类.实验结果表明,本文方法可以有效提高文本情感分析的准确率. 展开更多
关键词 中文文本情感分析 特征融合 特征提取 语义特征 自注意力机制 深度学习混合模型
在线阅读 下载PDF
混合神经网络和条件随机场相结合的文本情感分析 被引量:6
11
作者 翟学明 魏巍 《智能系统学报》 CSCD 北大核心 2021年第2期202-209,共8页
针对当前文本情感分析中神经网络模型训练时间长,上下文信息学习不足的问题,该文提出了一种结合混合神经网络和条件随机场(conditional random fields,CRF)的模型。该模型将神经网络作为语言模型,结合了卷积神经网络(convolutional neur... 针对当前文本情感分析中神经网络模型训练时间长,上下文信息学习不足的问题,该文提出了一种结合混合神经网络和条件随机场(conditional random fields,CRF)的模型。该模型将神经网络作为语言模型,结合了卷积神经网络(convolutional neural networks,CNN)与双向门控循环单元(bidirectional gated recurrent unit,Bi-GRU)两种神经网络获得的语义信息和结构特征,采用条件随机场模型作为分类器,计算情感概率分布,进而能够准确地判断情感类别。该文的模型在NLPCC 2014数据集上进行了测试,准确率为91.74%,与其他分类模型相比,可以获得更好的准确性和F值。 展开更多
关键词 卷积神经网络 门控循环单元 条件随机场 文本情感分析 语言模型 语义特征 上下文信息 分类器
在线阅读 下载PDF
中文文本的可视化表示 被引量:7
12
作者 林鸿飞 高天 姚天顺 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2000年第5期501-504,共4页
由于辅助阅读的需求 ,给出了中文文本的可视化表示 ,以直观的方式逐级显示文本内容·其基本思想是 :利用潜在语义索引的方法 ,改进文本分类的效果·利用文本层次分析方法 ,进行文本结构分解 ,给出了文本结构中各单元的标记信息 ... 由于辅助阅读的需求 ,给出了中文文本的可视化表示 ,以直观的方式逐级显示文本内容·其基本思想是 :利用潜在语义索引的方法 ,改进文本分类的效果·利用文本层次分析方法 ,进行文本结构分解 ,给出了文本结构中各单元的标记信息 ,由此形成了文本的可视化表示·利用文本类别、文本主题、层次、段落的超文本连接和特征项的导航功能 ,帮助用户有目的、有选择地浏览文本 。 展开更多
关键词 文本层次分析 文本可视化表示 向量空间模型 文本分类 潜在语义索引
在线阅读 下载PDF
TCBLSA:一种中文文本聚类新方法 被引量:15
13
作者 王国勇 徐建锁 《计算机工程》 CAS CSCD 北大核心 2004年第5期21-22,37,共3页
根据隐含语义分析(LSA)理论,提出了一种文本聚类的新方法。该方法应用LSA理论来构建文本集的向量空间模型,在词条的权重中引入了语义关系,消减了原词条矩阵中包含的“噪声”因素,从而更加突出了词和文本之间的语义关系。通过奇异... 根据隐含语义分析(LSA)理论,提出了一种文本聚类的新方法。该方法应用LSA理论来构建文本集的向量空间模型,在词条的权重中引入了语义关系,消减了原词条矩阵中包含的“噪声”因素,从而更加突出了词和文本之间的语义关系。通过奇异值分解(SVD),有效地降低了向量空间的维数,从而提高了文本聚类的精度和速度。 展开更多
关键词 文本聚类 隐含语义分析 奇异值分解 向量空间模型
在线阅读 下载PDF
大数据技术在油气行业事故事件致因分析中的应用 被引量:5
14
作者 阎红巧 樊志强 郝壮远 《安全与环境工程》 CAS CSCD 北大核心 2021年第6期31-37,共7页
为深入研究历年油气生产企业事故事件致因因素,为事故事件预控提供依据,采用事故致因理论即屏障理论通过分析石油及天然气行业事故事件调查报告数据,建立了适用于石油石化行业的HSE文本语义分析模型,并从1万余条事故事件数据中自动提取1... 为深入研究历年油气生产企业事故事件致因因素,为事故事件预控提供依据,采用事故致因理论即屏障理论通过分析石油及天然气行业事故事件调查报告数据,建立了适用于石油石化行业的HSE文本语义分析模型,并从1万余条事故事件数据中自动提取13类失效屏障类型、14类屏障失效原因和13项管理因素,通过实例应用与分析,探讨了导致油气行业事故屏障失效的管理因素,提出事故HSE管理建议。结果表明:人员操作屏障和结构完整性屏障是事故事件中失效最多的两类屏障,其中人员操作屏障失效导致了59%的事故事件,结构完整性屏障失效导致了22%的事故事件;员工安全意识缺乏/疏忽/失误和安全知识/技能不足是导致人员操作屏障失效的关键原因,装置/设备设计缺陷和装置/设备运行控制缺陷是导致结构完整性屏障失效的关键原因;风险防控与隐患排查治理是导致人员操作屏障失效和结构完整性屏障失效的共性管理因素。该研究结果可为油气生产企业事故事件的预防提供依据。 展开更多
关键词 油气生产企业 大数据 事故致因 hse文本语义分析模型 屏障失效原因 管理因素
在线阅读 下载PDF
流行病数据可视分析综述 被引量:4
15
作者 孙国道 杨雨璠 +1 位作者 潘翔 梁荣华 《计算机学报》 EI CAS CSCD 北大核心 2022年第3期601-623,共23页
流行病数据的多层面可视分析,可以加快流行病数据分析任务的交互式探索效率和加深对潜在模式的深刻理解.本文对流行病数据可视分析的相关工作展开综述,并主要通过四个方面进行总结和归纳:(1)流行病数据的时空可视分析,帮助用户发现和理... 流行病数据的多层面可视分析,可以加快流行病数据分析任务的交互式探索效率和加深对潜在模式的深刻理解.本文对流行病数据可视分析的相关工作展开综述,并主要通过四个方面进行总结和归纳:(1)流行病数据的时空可视分析,帮助用户发现和理解流行病数据在时间、空间以及时空维度中潜在的流行病特征和传播规律等;(2)流行病数据中涉及非结构化/半结构化文本的语义可视分析,辅助用户快速了解长、短文本内容中的流行病内容态势、情感走向等;(3)流行病传播模型的可视分析,增强用户对流行病传播过程中的预测、仿真、监测等任务的交互式理解;(4)流行病数据的静态信息图,直观反映流行病信息的上下文内容和提高公众的理解效率.在上述基础上,本文阐述了流行病数据可视分析在数据存储和获取,地图可视化形式多元扩展,流行病模拟传播分析和多学科交融的综合可视分析存在的问题和挑战. 展开更多
关键词 流行病数据可视化 时空可视化 语义文本 流行病模型 信息图 可视分析
在线阅读 下载PDF
大数据文本挖掘技术在新闻传播学科的应用 被引量:24
16
作者 钟智锦 王童辰 《当代传播》 CSSCI 北大核心 2018年第5期12-18,共7页
文本挖掘技术在社会科学领域中的应用日渐广泛,本文对比了文本挖掘和传统的内容分析法,介绍了文本挖掘的几种常用技术,即词典法、无监督的机器学习和有监督的机器学习,通过案例阐述了这些方法在情感分析、主题建模、语义网络中的具体应... 文本挖掘技术在社会科学领域中的应用日渐广泛,本文对比了文本挖掘和传统的内容分析法,介绍了文本挖掘的几种常用技术,即词典法、无监督的机器学习和有监督的机器学习,通过案例阐述了这些方法在情感分析、主题建模、语义网络中的具体应用。本文总结了文本挖掘技术在新闻传播学科中的使用场景和特征,分析了它给传播学研究带来的机遇及其在发展应用中的瓶颈。 展开更多
关键词 文本挖掘 文本分析 情感分析 主题模型 语义网络 机器学习
在线阅读 下载PDF
TCBPL:一种高效文本分类新方法 被引量:2
17
作者 解本政 《计算机工程》 EI CAS CSCD 北大核心 2005年第23期6-7,19,共3页
根据模式聚合理论(PA)和隐含语义分析理论(LSA)提出了一种文本分类新方法——TCBPL方法,该方法应用PA理论和LSA理论来构造向量空间模型,大大削减了特征向量的维数,同时增强了稀有词的作用,并在特征向量中引入了语义成分,从而提高了分类... 根据模式聚合理论(PA)和隐含语义分析理论(LSA)提出了一种文本分类新方法——TCBPL方法,该方法应用PA理论和LSA理论来构造向量空间模型,大大削减了特征向量的维数,同时增强了稀有词的作用,并在特征向量中引入了语义成分,从而提高了分类的速度和精度。 展开更多
关键词 模式聚合 隐含语义分析 文本分类 向量空间模型
在线阅读 下载PDF
双语交叉分类模型的设计与实现
18
作者 林鸿飞 王剑峰 《中文信息学报》 CSCD 北大核心 2001年第6期27-32,共6页
利用交叉分类机制共享因特网上各种语言的信息资源是知识挖掘的重要方法 ,本文给出了双语交叉分类的模型以及实现方法。其主要思想是不需要进行机器翻译和人工标注 ,利用文本特征抽取机制提取类别特征项和文本特征项 ,通过基于概念扩充... 利用交叉分类机制共享因特网上各种语言的信息资源是知识挖掘的重要方法 ,本文给出了双语交叉分类的模型以及实现方法。其主要思想是不需要进行机器翻译和人工标注 ,利用文本特征抽取机制提取类别特征项和文本特征项 ,通过基于概念扩充的对译映射规则自动生成类别和文本特征向量 ,在此基础上利用潜在语义分析 ,将双语文本在语义层面上统一起来 ,通过类别与文本的语义相似度进行分类。 展开更多
关键词 双语交叉文本分类 概念扩充 潜在语义分析 空间向量模型 知识挖掘 语义相似度 文本特征抽取机制
在线阅读 下载PDF
自然语言处理文本查重优化算法设计 被引量:12
19
作者 董星彤 陈士宏 陈淑鑫 《科学技术与工程》 北大核心 2022年第3期1091-1097,共7页
为了探索高校学生实习时提交的实践报告文本存在着重复的问题,从高校教学管理部门收集到相关文本的分类数据,结合Jieba分词工具处理文本信息,利用Word2vec词向量转换技术,表现了自然语言精准的语义分析能力。考虑到主题词抽取、概率分... 为了探索高校学生实习时提交的实践报告文本存在着重复的问题,从高校教学管理部门收集到相关文本的分类数据,结合Jieba分词工具处理文本信息,利用Word2vec词向量转换技术,表现了自然语言精准的语义分析能力。考虑到主题词抽取、概率分布情况及时间复杂度三个方面,使用Python的OS库完成批处理去重、去停用词和去非中文词,运用重要采样思想优化LDA(latent dirichlet allocation),模型,提出了新的训练模型ISLDA(importance sampling latent dirichlet allocation)抽取主题词汇,并采用余弦相似度计算重复率。更好地实现了文本查重算法模型的优化,对比两个模型的主题词类别、各词汇分布概率,结果表明新训练模型优化了主题模型,提高了计算模型训练准确率及测试文本的查重能力,较理想地实现了文本查重分析设计方法。 展开更多
关键词 语义分析 查重模型 重要性采样 文本向量化 相似度计算
在线阅读 下载PDF
一种基于LSA和Kohonen网络的文本分类新方法 被引量:2
20
作者 王国勇 徐建锁 《计算机应用》 CSCD 北大核心 2004年第2期53-55,68,共4页
文中根据隐含语义分析理论(LSA)和Kohonen网络理论提出一种文本分类新方法。应用Kohonen网络进行文本分类存在训练速度慢的缺点,因此在网络训练阶段引入了有监督机制,提高了网络的分类速度和精度;但是对于高维的文本特征向量来说,分类... 文中根据隐含语义分析理论(LSA)和Kohonen网络理论提出一种文本分类新方法。应用Kohonen网络进行文本分类存在训练速度慢的缺点,因此在网络训练阶段引入了有监督机制,提高了网络的分类速度和精度;但是对于高维的文本特征向量来说,分类速度很低,甚至应用Kohonen网络进行分类,不能取得理想结果;新方法应用LSA理论来建立文本集的向量空间模型,在词条的权重中引入了语义关系,消减了原词条矩阵中包含的"噪声"因素,从而更加突出了词和文本之间的语义关系。通过奇异值分解(SVD),有效地降低了向量空间的维数,从而大大提高了文本分类的精度和速度,同时根据因子分析理论给出了维数k的选取方法。 展开更多
关键词 文本分类 隐含语义分析 奇异值分解 KOHONEN网络 向量空间模型
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部