期刊文献+
共找到86篇文章
< 1 2 5 >
每页显示 20 50 100
基于IBTM-TMW 的信号设备故障文本聚类方法 被引量:1
1
作者 杨妮 张友鹏 +1 位作者 左静 赵斌 《中国铁道科学》 EI CAS CSCD 北大核心 2024年第6期194-201,共8页
针对信号设备故障文本数据存在的长度短、专业性强及难以智能化再利用等问题,提出基于改进的词对主题模型和词向量融合(IBTM-TMW)的信号设备故障文本聚类方法。首先,为减少数据噪音,提升数据质量,在数据预处理过程中引入自建词典和保留... 针对信号设备故障文本数据存在的长度短、专业性强及难以智能化再利用等问题,提出基于改进的词对主题模型和词向量融合(IBTM-TMW)的信号设备故障文本聚类方法。首先,为减少数据噪音,提升数据质量,在数据预处理过程中引入自建词典和保留动名词处理;其次,在词对的吉布斯采样建模过程中引入词的差异性重要度作为加权因素,利用改进的词对主题模型(IBTM)提升文本主题特征的学习能力,并将词频-改进逆文档频率权重(TF-MIDF)嵌入到Word2vec词向量的生成过程,将词的文本重要性与Word2vec词向量融合,完善文本词特征向量的表示;最后,通过融合文本主题特征向量和词特征向量,增强文本特征的表示能力,并采用K-means++算法进行故障聚类分析。结果表明:同一试验数据集下,所提方法生成的文本特征向量明显优于其他传统模型,其诊断精度达到89.9%,高于K-means,GMM,AGNES和BIRCH等聚类模型(诊断精度分别为78.3%,68.1%,87.9%和81.7%)。该方法可增强故障文本特征与类别间关联关系的识别能力,为基于文本数据驱动的故障诊断提供参考。 展开更多
关键词 故障诊断 主题模型 词向量 权重 文本聚类
在线阅读 下载PDF
基于主题词向量中心点的K-means文本聚类算法 被引量:2
2
作者 季铎 刘云钊 +1 位作者 彭如香 孔华锋 《计算机应用与软件》 北大核心 2024年第10期282-286,318,共6页
K-means由于其时间复杂度低运行速度快一直是最为流行的聚类算法之一,但是该算法在进行聚类时需要预先给出聚类个数和初始类中心点,其选取得合适与否会直接影响最终聚类效果。该文对初始类中心和迭代类中心的选取进行大量研究,根据决策... K-means由于其时间复杂度低运行速度快一直是最为流行的聚类算法之一,但是该算法在进行聚类时需要预先给出聚类个数和初始类中心点,其选取得合适与否会直接影响最终聚类效果。该文对初始类中心和迭代类中心的选取进行大量研究,根据决策图进行初始类中心的选择,利用每个类簇的主题词向量替代均值作为迭代类中心。实验表明,该文的初始点选取方法能够准确地选取初始点,且利用主题词向量作为迭代类中心能够很好地避免噪声点和噪声特征的影响,很大程度上地提高了K-means算法的性能。 展开更多
关键词 K-MEANS 初始点 决策图 迭代类中心 主题词向量
在线阅读 下载PDF
一种有效的专题信息集中和检索策略 被引量:4
3
作者 王宇新 刘海峰 +1 位作者 郭禾 陈鑫 《计算机应用研究》 CSCD 北大核心 2010年第6期2106-2108,共3页
Internet上专题资源网页汇聚和检索是垂直搜索引擎中的核心问题,HITS算法是早期解决这个问题的经典算法,很多文献对它进行了改进,但无论索引的主题相关率还是引擎的查准率都有提高的余地。提出一种基于锚文本和标题信息过滤并结合网页... Internet上专题资源网页汇聚和检索是垂直搜索引擎中的核心问题,HITS算法是早期解决这个问题的经典算法,很多文献对它进行了改进,但无论索引的主题相关率还是引擎的查准率都有提高的余地。提出一种基于锚文本和标题信息过滤并结合网页内容相关度判断的HITS专题检索策略,利用专题训练集判断主题相关度,很好地解决了只依靠查询字符串判断的弊端。实验表明,此策略能很好地提高专题信息汇聚精确度和检索的准确率,并且减少了非相关URL的下载量。 展开更多
关键词 HITS算法 锚文本 网页标题 专题相关度 向量模型 专题训练集
在线阅读 下载PDF
基于用户偏好的垂直搜索算法 被引量:5
4
作者 张磊 陈俊亮 +2 位作者 孟祥武 沈筱彦 郭杰 《电子科技大学学报》 EI CAS CSCD 北大核心 2010年第1期91-96,共6页
提出并研究、实现了基于用户偏好的垂直搜索算法(PVSA)。以领域特征为基本出发点,PVSA借助领域主题偏好向量、领域元数据权重因子、检索名词差异化、行业词典库更新等4项策略,有效地挖掘、表征用户的领域个性化偏好,以此为基础构建基于... 提出并研究、实现了基于用户偏好的垂直搜索算法(PVSA)。以领域特征为基本出发点,PVSA借助领域主题偏好向量、领域元数据权重因子、检索名词差异化、行业词典库更新等4项策略,有效地挖掘、表征用户的领域个性化偏好,以此为基础构建基于用户偏好的垂直搜索算法。实验结果表明了PVSA算法的有效性和可行性。 展开更多
关键词 词库 差异化 领域主题偏好向量 元数据权重因子 用户偏好
在线阅读 下载PDF
基于Internet的农业信息垂直搜索引擎的设计 被引量:6
5
作者 赵洋 滕桂法 +1 位作者 张玉新 何冬梅 《河北农业大学学报》 CAS CSCD 北大核心 2009年第6期125-128,共4页
农业信息化建设的飞速发展,使得互联网上农业信息迅速增长,但由于使用通用搜索引擎检索出的信息庞杂无序,农业主题信息的获取仍十分困难。因此,搜索引擎有向专业化、领域化方向发展的趋势。本文设立了一种基于特征词匹配算法的垂直搜索... 农业信息化建设的飞速发展,使得互联网上农业信息迅速增长,但由于使用通用搜索引擎检索出的信息庞杂无序,农业主题信息的获取仍十分困难。因此,搜索引擎有向专业化、领域化方向发展的趋势。本文设立了一种基于特征词匹配算法的垂直搜索引擎设计方案,该方案通过建立农业信息特征词词典,采用向量空间模型来对网页主题进行识别,从而提高信息检索的准确率。并采用基于超级链接分析的方法,使主题相关的URL优先得到访问,提高了搜索引擎的效率。 展开更多
关键词 垂直搜索引擎 主题识别 向量空间模型 特征词
在线阅读 下载PDF
一种突发性热点话题在线发现与跟踪方法 被引量:23
6
作者 薛峰 周亚东 +3 位作者 高峰 刘霁 赵俊舟 党琪 《西安交通大学学报》 EI CAS CSCD 北大核心 2011年第12期64-69,116,共7页
针对在线发现与跟踪动态突发性文本流中的热点话题问题,在突发性热点词发现与度量方法的基础上提出了一种动态文本模型———动态突发性向量空间模型,用于有效描述文本的动态属性,并且结合文本聚类方法,提出了突发性热点话题的在线发现... 针对在线发现与跟踪动态突发性文本流中的热点话题问题,在突发性热点词发现与度量方法的基础上提出了一种动态文本模型———动态突发性向量空间模型,用于有效描述文本的动态属性,并且结合文本聚类方法,提出了突发性热点话题的在线发现与跟踪方法.该方法可有效解决传统的基于静态向量空间模型的热点话题发现与跟踪方法仅可分析静态文本的缺陷,并具有以下特点:在特征选择阶段动态地生成热点词特征库,利用模型统一文本和话题的表示,在文本表示时给予突发性热点词更大的权重.基于实际网络文本流数据的实验表明,该方法对突发性热点话题发现的精确率与召回率分别达到92.75%和80.34%,显著优于传统的基于静态向量空间模型方法的实验结果,并可有效跟踪突发性热点话题,弥补了传统静态方法不能有效跟踪热点话题的不足. 展开更多
关键词 突发性热点话题 话题发现与跟踪 向量空间模型
在线阅读 下载PDF
基于概念统计和语义层次分析的英文自动文摘研究 被引量:9
7
作者 季姮 罗振声 +1 位作者 万敏 高小云 《中文信息学报》 CSCD 北大核心 2003年第2期14-20,共7页
传统的自动文摘方法基于词语统计抽取文摘句 ,未进行文本的语义分析 ,导致文摘精度不高。为了克服传统方法的缺点 ,本文提出了一种基于主题概念的自动文摘方法 ,以概念统计和层次分析为基础设计并实现了一个英文自动文摘系统。系统利用W... 传统的自动文摘方法基于词语统计抽取文摘句 ,未进行文本的语义分析 ,导致文摘精度不高。为了克服传统方法的缺点 ,本文提出了一种基于主题概念的自动文摘方法 ,以概念统计和层次分析为基础设计并实现了一个英文自动文摘系统。系统利用WordNet以概念统计代替传统的词频统计 ,基于主题概念构建向量空间模型 ,计算句子重要度。并且根据主题概念在概念层次树上的分布进行文本结构分析划分意义块 ,以意义块为单元抽取文摘 ,初步解决了多主题文章的文摘结构不平衡问题。本文主要介绍了概念层次树的构造 ,主题概念的抽取步骤 ,基于主题概念的句子重要度的计算和意义块的划分算法。测试表明 ,通过概念统计和语义层次分析的方法 ,我们设计了更理想的向量空间模型 ,系统生成的文摘精度较高 。 展开更多
关键词 计算机应用 中文信息处理 概念统计 主题概念 向量空间模型 句子重要度 意义块划分
在线阅读 下载PDF
基于概念统计的英文自动文摘研究 被引量:9
8
作者 万敏 罗振声 +1 位作者 季姮 高小云 《计算机工程与应用》 CSCD 北大核心 2002年第24期7-9,16,共4页
文章提出了一种基于概念统计和语义层次分析的自动文摘方法,并以此实现了一个英文自动文摘系统。系统利用WordNet对英文文章进行词语分析,用概念统计的方法选取文章的主题概念,以此构建向量空间模型;并根据主题概念在概念层次树上的分... 文章提出了一种基于概念统计和语义层次分析的自动文摘方法,并以此实现了一个英文自动文摘系统。系统利用WordNet对英文文章进行词语分析,用概念统计的方法选取文章的主题概念,以此构建向量空间模型;并根据主题概念在概念层次树上的分布划分意义块,以意义块为单位抽取文摘,初步解决多主题文章的文摘结构不平衡问题。该文主要介绍概念层次树的构造,主题概念的抽取步骤,句子重要度的计算和意义块的划分算法。测试表明该文提到的方法比传统的基于词频统计的方法有更高的召回率与精确率。 展开更多
关键词 概念统计 英文自动文摘 主题概念 向量空间模型 句子重要度 计算机
在线阅读 下载PDF
一种基于LDA主题模型的话题发现方法 被引量:22
9
作者 郭蓝天 李扬 +2 位作者 慕德俊 杨涛 李哲 《西北工业大学学报》 EI CAS CSCD 北大核心 2016年第4期698-702,共5页
话题发现是提取热点话题并掌握其演化规律的关键技术之一。针对社交网络中海量短文本信息具有高维性导致主题模型难以处理以及主题分布不均导致主题不明确的问题,提出一种基于LDA(latent dirichlet allocation)主题模型的CBOW-LDA主题... 话题发现是提取热点话题并掌握其演化规律的关键技术之一。针对社交网络中海量短文本信息具有高维性导致主题模型难以处理以及主题分布不均导致主题不明确的问题,提出一种基于LDA(latent dirichlet allocation)主题模型的CBOW-LDA主题建模方法,通过引入基于CBOW(continuous bag-of-word)模型的词向量化方法对目标语料进行相似词的聚类,能够有效降低LDA模型输入文本的维度,并且使主题更明确。通过在真实数据集上计算分析,与现有基于词频权重的词向量化LDA方法相比,在相同主题词数情况下困惑度可降低约3%。 展开更多
关键词 词向量 LDA模型 话题发现 困惑度
在线阅读 下载PDF
基于万有引力改进的TextRank关键词提取算法 被引量:7
10
作者 孙福权 张静静 +2 位作者 刘冰玉 姜玉山 多允慧 《计算机应用与软件》 北大核心 2020年第7期216-220,295,共6页
为了提高文本关键词提取的准确性,提出基于万有引力改进的TextRank关键词提取算法GtextRank。利用万有引力模型对词语在文档中的主题影响力、词语间距离和词语间共现频率进行有效融合,构建新的TextRank转移概率实现关键词的提取。实验... 为了提高文本关键词提取的准确性,提出基于万有引力改进的TextRank关键词提取算法GtextRank。利用万有引力模型对词语在文档中的主题影响力、词语间距离和词语间共现频率进行有效融合,构建新的TextRank转移概率实现关键词的提取。实验结果表明,与传统关键词提取方法相比,该算法具有显著的优越性,能够完成对关键词的相对正确的提取;同时考虑了文本中词语的语义关系和主题影响度,可以提高关键词的提取精度。 展开更多
关键词 关键词 主题影响度 词向量 TextRank 万有引力
在线阅读 下载PDF
面向中文新闻话题检测的多向量文本聚类方法 被引量:6
11
作者 李欣雨 袁方 +1 位作者 刘宇 李琮 《郑州大学学报(理学版)》 CAS 北大核心 2016年第2期47-52,共6页
基于多向量模型,给出一种将话题主题信息与话题文本信息相结合的多向量话题表示方式,使用较低的维度来准确表示一个话题.针对传统TFIDF方法在文本分类问题中对特征项在各个类中分布情况考虑不充分的问题,给出了一种TFIDF改进方法.在TDT... 基于多向量模型,给出一种将话题主题信息与话题文本信息相结合的多向量话题表示方式,使用较低的维度来准确表示一个话题.针对传统TFIDF方法在文本分类问题中对特征项在各个类中分布情况考虑不充分的问题,给出了一种TFIDF改进方法.在TDT4的中文语料上,与传统向量空间模型进行了对比实验.实验结果表明,给出的话题表示方法和TFIDF改进算法能够在较低的维度上,使聚类的准确率得到较大提升. 展开更多
关键词 话题检测 多向量模型 TDT4 改进TFIDF算法
在线阅读 下载PDF
命名实体的网络话题K-means动态检测方法 被引量:4
12
作者 刘素芹 柴松 《智能系统学报》 2010年第2期122-126,共5页
针对传统的网络话题检测方法在文本特征表示方面的不足及K-means聚类算法面临的问题,提出了一种基于命名实体的网络话题K-means动态检测方法.该方法对传统话题检测的特征表示方法进行了改进,用命名实体和文本特征词相结合表示文本特征,... 针对传统的网络话题检测方法在文本特征表示方面的不足及K-means聚类算法面临的问题,提出了一种基于命名实体的网络话题K-means动态检测方法.该方法对传统话题检测的特征表示方法进行了改进,用命名实体和文本特征词相结合表示文本特征,用命名实体对文本表示的贡献大小表示命名实体的权重;另外,利用自适应技术对K-means聚类算法中的K值进行自收敛,对K-means聚类算法进行了优化,利用K值的动态选取来实现网络话题的动态检测.实验结果表明,该方法较好地区分了相似话题,有效提高了话题检测的性能. 展开更多
关键词 命名实体 网络话题 动态检测 K—means聚类 自相似度 话题向量
在线阅读 下载PDF
网页去重方法研究 被引量:7
13
作者 樊勇 郑家恒 《计算机工程与应用》 CSCD 北大核心 2009年第12期141-143,183,共4页
搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担。针对网页重复的特征,提出了一种基于语义的去重方法。该方法通过句子在文本中的位置和组块的重要度,提取出网页正文的主题句向量,然后对主题句向量进行语义相似度... 搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担。针对网页重复的特征,提出了一种基于语义的去重方法。该方法通过句子在文本中的位置和组块的重要度,提取出网页正文的主题句向量,然后对主题句向量进行语义相似度计算,把重复的网页去除。实验证明,该方法对全文重复和部分重复的网页都能进行较准确的检测。 展开更多
关键词 组块 主题句向量 网页去重
在线阅读 下载PDF
融合LDA主题模型和支持向量机的商品个性化推荐方法 被引量:11
14
作者 穆晓霞 董星辉 +1 位作者 柴旭清 李钧涛 《郑州大学学报(理学版)》 北大核心 2022年第3期34-39,共6页
针对网络商品评论数据不能有效引导买方做出合理选择的问题,提出一种融合LDA主题模型和支持向量机的商品个性化推荐方法。首先爬取不同类型商品的用户评论数据并对其进行预处理;其次建立基于LDA的主题模型并对其特点进行量化;最后利用... 针对网络商品评论数据不能有效引导买方做出合理选择的问题,提出一种融合LDA主题模型和支持向量机的商品个性化推荐方法。首先爬取不同类型商品的用户评论数据并对其进行预处理;其次建立基于LDA的主题模型并对其特点进行量化;最后利用支持向量机实现商品个性化推荐。以智能手机商品为例进行实验分析,结果表明,所提方法能获得98%以上的分类精度。 展开更多
关键词 LDA主题模型 支持向量机 粒子群优化 个性化推荐
在线阅读 下载PDF
话题跟踪方法的研究 被引量:3
15
作者 夏春艳 崔广才 李树平 《计算机工程与应用》 CSCD 2012年第15期129-132,共4页
话题跟踪旨在实现对新闻媒体信息流中已知话题的动态跟踪。在现有的向量空间模型分类算法的基础上,提出一种基于话题更新的话题跟踪算法,通过实验对其进行评价。
关键词 话题检测 话题跟踪 向量空间模型 K最近邻居
在线阅读 下载PDF
一个基于关联规则的多层文档聚类算法 被引量:4
16
作者 宋江春 沈钧毅 宋擒豹 《计算机应用》 CSCD 北大核心 2005年第7期1570-1572,共3页
提出了一种新的基于关联规则的多层文档聚类算法,该算法利用新的文档特征抽取方法构造了文档的主题和关键字特征向量。首先在主题特征向量空间中利用频集快速算法对文档进行初始聚类,然后在基于主题关键字的新的特征向量空间中利用类间... 提出了一种新的基于关联规则的多层文档聚类算法,该算法利用新的文档特征抽取方法构造了文档的主题和关键字特征向量。首先在主题特征向量空间中利用频集快速算法对文档进行初始聚类,然后在基于主题关键字的新的特征向量空间中利用类间距和连接度对初始文档类进行求精,从而得到最终聚类。由于使用了两层聚类方法,使算法的效率和精度都大大提高;使用新的文档特征抽取方法还解决了由于文档关键字过多而导致文档特征向量的维数过高的问题。 展开更多
关键词 文档挖掘 文档聚类 关联规则 文档主题特征向量 文档关键字特征向量
在线阅读 下载PDF
中文文献的层次分类方法 被引量:22
17
作者 战学刚 林鸿飞 姚天顺 《中文信息学报》 CSCD 北大核心 1999年第6期20-25,共6页
现有的分类系统通常忽略类别体系的层次结构,在对文献进行分类时,往往很难区分类别相近的文献属于哪一类。本文基于向量空间模型,提出根据类别体系的层次结构,自顶向下,逐层分类的方法。其目的是提高分类精度;并根据概念词典,将... 现有的分类系统通常忽略类别体系的层次结构,在对文献进行分类时,往往很难区分类别相近的文献属于哪一类。本文基于向量空间模型,提出根据类别体系的层次结构,自顶向下,逐层分类的方法。其目的是提高分类精度;并根据概念词典,将同义词或下位概念映射到单一的概念词上,由这些概念词构成一个规模很小的特征集,以缩小特征向量空间的维数,从而减少分类系统的计算量。此外,通过对类别层次体系的分析,压缩特征向量。 展开更多
关键词 文献分类 向量空间模型 层次分类 中文文献
在线阅读 下载PDF
微博突发话题检测方法研究 被引量:13
18
作者 邱云飞 程亮 《计算机工程》 CAS CSCD 2012年第9期288-290,共3页
话题检测与跟踪模型不能很好地处理随意性强、用语不规范的微博短信息。为此,提出一种基于动态滑动窗口的微博突发话题检测方法。利用窗口提取具有潜在突发性的信息,采用结合语义的归一化词频-反文档频率函数计算特征权重,构建结合语义... 话题检测与跟踪模型不能很好地处理随意性强、用语不规范的微博短信息。为此,提出一种基于动态滑动窗口的微博突发话题检测方法。利用窗口提取具有潜在突发性的信息,采用结合语义的归一化词频-反文档频率函数计算特征权重,构建结合语义的空间向量模型,使用Single-Pass聚类算法思想对其加以改进,生成最终聚类。实验结果表明,该算法能获得较准确的突发话题检测结果。 展开更多
关键词 微博 突发话题 滑动窗口 语义相似度 空间向量模型 话题检测与跟踪
在线阅读 下载PDF
基于主题分析的用户评论聚类方法 被引量:4
19
作者 张会兵 钟昊 胡晓丽 《计算机科学》 CSCD 北大核心 2019年第8期50-55,共6页
在社会化商务中对用户评论进行合理的聚类分析有利于商家提供精准服务或推荐信息,文中提出了一种基于主题分析的用户评论聚类方法。根据主题词在用户评论中的互信息强度以及主题词之间的相似度计算主题词权重,并依此构建用户评论主题向... 在社会化商务中对用户评论进行合理的聚类分析有利于商家提供精准服务或推荐信息,文中提出了一种基于主题分析的用户评论聚类方法。根据主题词在用户评论中的互信息强度以及主题词之间的相似度计算主题词权重,并依此构建用户评论主题向量。在此基础上,提出了一种基于用户评论相似度自动选择canopy聚类算法初始阈值的自适应canopy+kmeans聚类算法,对主题向量进行聚类分析。在亚马逊的评论数据上进行测试,结果表明:该方法充分描述了用户评论中不同主题词对用户观点的突出程度不同,并改善了K-means聚类算法易陷入局部最优的缺点,与传统的LDA+K-means算法相比,取得了更好的效果。 展开更多
关键词 用户评论 主题分析 主题向量 自适应聚类
在线阅读 下载PDF
可定题的中文网络信息自动发现系统 被引量:1
20
作者 阳爱民 孙星明 +1 位作者 李长云 周序生 《计算机工程与应用》 CSCD 北大核心 2002年第8期145-147,共3页
随着Internet应用的逐渐普及,WWW己经发展成为个巨大的分布式信息空间,为用户提供了一个极具价值的信息源。快速、准确地发现定题领域中的信息,是广大网站管理员和用户所需要的;文章介绍了一种可定题的网络信息自动发现系统;并说明系统... 随着Internet应用的逐渐普及,WWW己经发展成为个巨大的分布式信息空间,为用户提供了一个极具价值的信息源。快速、准确地发现定题领域中的信息,是广大网站管理员和用户所需要的;文章介绍了一种可定题的网络信息自动发现系统;并说明系统的设计思想,关键技术和实现。 展开更多
关键词 定题 INTERNET WWW 信息检索系统 中文网络 信息自动发现系统
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部