期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
电力设备缺陷文本的双通道语义增强网络挖掘方法 被引量:2
1
作者 张宇波 王有元 +1 位作者 梁玄鸿 夏宇 《高电压技术》 EI CAS CSCD 北大核心 2024年第5期1923-1932,共10页
电力设备运维环节积累的缺陷文本可指导设备的状态评价和检修工作。然而缺陷文本结构多样且背景噪声强,导致智能挖掘信息的难度大。针对该问题,提出了基于双通道语义增强网络的电力设备缺陷文本挖掘方法。首先,分析缺陷文本的内容,结合... 电力设备运维环节积累的缺陷文本可指导设备的状态评价和检修工作。然而缺陷文本结构多样且背景噪声强,导致智能挖掘信息的难度大。针对该问题,提出了基于双通道语义增强网络的电力设备缺陷文本挖掘方法。首先,分析缺陷文本的内容,结合自然语言处理方法预处理缺陷文本。利用Glove词向量嵌入模型将缺陷文本映射至数值空间表征语义。然后,基于词移距离构建缺陷文本的增强文本,通过含注意力机制的双向长短时记忆神经网络分别提取缺陷文本和增强文本的特征,进而在网络末端融合特征实现关键信息加强,提升模型分类性能。实例表明,所提双通道语义增强网络的分类Macro-F1指标相比于传统机器学习方法、单通道深度学习方法至少提高6.2%、5.2%,同时所提方法为实现图像、文本等多源运维数据的特征增强提供新思路。 展开更多
关键词 缺陷文本 信息智能挖掘 词移距离 双通道语义增强网络 特征融合
在线阅读 下载PDF
Internet上的文本数据挖掘 被引量:60
2
作者 王伟强 高文 段立娟 《计算机科学》 CSCD 北大核心 2000年第4期32-36,共5页
1 引言今天Internet已不再是科学家及工程师们独享的通讯工具,已成为数字化时代的世界性图书馆,变成了为各行各业的人们交流思想、获取信息的便利手段。人们在使用WWW浏览服务时,检索、获取最多的信息数据就是文本数据。但这种在巨大的I... 1 引言今天Internet已不再是科学家及工程师们独享的通讯工具,已成为数字化时代的世界性图书馆,变成了为各行各业的人们交流思想、获取信息的便利手段。人们在使用WWW浏览服务时,检索、获取最多的信息数据就是文本数据。但这种在巨大的Internet信息仓库中占信息比重最大的数据类型却缺乏结构化、组织的规整性,并且随意地散布在这个网络的各个角落,还降低了人们对丰富的信息资源的利用效率。数据挖掘是人们对一些巨型数据库中的数据进行分析、使用感到力不从心时而发展出的一门新的技术,它将人工智能技术与数据库技术紧密结合起来,让计算机帮助人们从庞大的数据中智能地、自动地抽取有价值的知识模式,以满足人们不同应用的需要。当数据挖掘的对象完全由文本这种数据类型组成时,这个过程就称文本数据挖掘。Internet上缺乏结构化、组织规整性的超巨量文本数据自然让人们想到运用文本数据挖掘技术来帮助提高人们在Internet上检索信息、利用信息的效率。 展开更多
关键词 信息检索 文本数据挖掘 INTERNET网 数据库
在线阅读 下载PDF
文本挖掘技术研究进展 被引量:60
3
作者 袁军鹏 朱东华 +2 位作者 李毅 李连宏 黄进 《计算机应用研究》 CSCD 北大核心 2006年第2期1-4,共4页
文本挖掘是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程,已经成为数据挖掘中一个日益流行而重要的研究领域。首先给出了文本挖掘的定义和框架,对文本挖掘中预处理、文本摘要、文本分类、聚类、关联分析及可视... 文本挖掘是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程,已经成为数据挖掘中一个日益流行而重要的研究领域。首先给出了文本挖掘的定义和框架,对文本挖掘中预处理、文本摘要、文本分类、聚类、关联分析及可视化技术进行了详尽的分析,并归纳了最新的研究进展。最后指出了文本挖掘在知识发现中的重要意义,展望了文本挖掘在信息技术中的发展前景。 展开更多
关键词 文本挖掘 中文分词 特征选取 文本摘要 文本分类 文本聚类 关联分析 数据可视化
在线阅读 下载PDF
基于影评数据的在线评论有用性影响因素研究 被引量:243
4
作者 郝媛媛 叶强 李一军 《管理科学学报》 CSSCI 北大核心 2010年第8期78-88,96,共12页
面对互联网上海量的在线客户评论,如何能快速有效地进行识别和选择从而发现和利用其中有用的评论,已经成为人们关注的重要问题.以体验型商品电影的在线评论为研究对象,结合文本挖掘技术和实证研究方法,从文本特征出发探索影响在线评论... 面对互联网上海量的在线客户评论,如何能快速有效地进行识别和选择从而发现和利用其中有用的评论,已经成为人们关注的重要问题.以体验型商品电影的在线评论为研究对象,结合文本挖掘技术和实证研究方法,从文本特征出发探索影响在线评论有用性的因素,建立在线评论有用性影响因素模型,并利用该模型对评论有用性进行分类预测.与现有相关研究相比,提出的模型总体拟合效果显著提高,并发现在线影评中积极的情感倾向、较高的正负情感混杂度、较高的主客观表达混杂度以及较长的平均各句长度,对评论的有用性具有显著的正面影响.最后预测结果表明,该模型对在线影评的有用性具有较强的判别能力. 展开更多
关键词 口碑 在线评论 有用性 文本特征 正负情感 主客观表达形式 文本挖掘
在线阅读 下载PDF
文本挖掘及其关键技术与方法 被引量:43
5
作者 王丽坤 王宏 陆玉昌 《计算机科学》 CSCD 北大核心 2002年第12期12-19,共8页
With the dramatically development of Internet, the information processing and management technology onWWW have become a great important branch of data mining and data warehouse. Especially, nowadays, Text Miningis mar... With the dramatically development of Internet, the information processing and management technology onWWW have become a great important branch of data mining and data warehouse. Especially, nowadays, Text Miningis marvelously emerging and plays an important role in interrelated fields. So it is worth summarizing the contentabout text mining from its definition to relational methods and techniques. In this paper, combined to comparativelymature data mining technology, we present the definition of text mining and the multi-stage text mining process mod-el. Moreover, this paper roundly introduces the key areas of text mining and some of the powerful text analysis tech-niques, including: Word Automatic Segmenting, Feature Representation, Feature Extraction, Text Categorization,Text Clustering, Text Summarization, Information Extraction, Pattern Quality Evaluation, etc. These techniquescover the whole process from information preprocessing to knowledge obtaining. 展开更多
关键词 文本挖掘 数据挖掘 知识发现 数据处理 数据库
在线阅读 下载PDF
基于情感词属性和云模型的文本情感分类方法 被引量:9
6
作者 孙劲光 马志芳 孟祥福 《计算机工程》 CAS CSCD 2013年第12期211-215,222,共6页
受语言固有的模糊性、随机性以及传统文本特征词权重值计算方法不适用于情感词等因素的影响,文本情感分类的正确率很难达到传统文本主题分类的水平。为此,提出一种基于情感词属性和云模型的情感分类方法。结合情感词属性和简单句法结构... 受语言固有的模糊性、随机性以及传统文本特征词权重值计算方法不适用于情感词等因素的影响,文本情感分类的正确率很难达到传统文本主题分类的水平。为此,提出一种基于情感词属性和云模型的情感分类方法。结合情感词属性和简单句法结构以确定情感词的权重值,并利用云模型对情感词进行定性定量表示的转换。实验结果表明,该方法对情感词权重值计算是有效的,召回率最高达到78.8%,且与基于词典的方法相比,其文本情感分类结果更精确,正确率最高达到68.4%,增加了约9%的精度。 展开更多
关键词 观点挖掘 文本挖掘 情感分类 云模型 情感词属性 文本特征提取
在线阅读 下载PDF
基于双编码器的短文本自动摘要方法 被引量:4
7
作者 丁建立 李洋 王家亮 《计算机应用》 CSCD 北大核心 2019年第12期3476-3481,共6页
针对当前生成式文本摘要方法存在的语义信息利用不充分、摘要精度不够等问题,提出一种基于双编码器的文本摘要方法。首先,通过双编码器为序列映射(Seq2Seq)架构提供更丰富的语义信息,并对融入双通道语义的注意力机制和伴随经验分布的解... 针对当前生成式文本摘要方法存在的语义信息利用不充分、摘要精度不够等问题,提出一种基于双编码器的文本摘要方法。首先,通过双编码器为序列映射(Seq2Seq)架构提供更丰富的语义信息,并对融入双通道语义的注意力机制和伴随经验分布的解码器进行了优化研究;然后,在词嵌入生成技术中融合位置嵌入和词嵌入,并新增词频-逆文档频率(TF-IDF)、词性(POS)、关键性得分(Soc),优化词嵌入维度。所提方法对传统序列映射Seq2Seq和词特征表示进行优化,在增强模型对语义的理解的同时,提高了摘要的质量。实验结果表明,该方法在Rouge评价体系中的表现相比传统伴随自注意力机制的递归神经网络方法(RNN+atten)和多层双向伴随自注意力机制的递归神经网络方法(Bi-MulRNN+atten)提高10~13个百分点,其文本摘要语义理解更加准确、生成效果更好,拥有更好的应用前景。 展开更多
关键词 生成式文本摘要 序列映射(Seq2Seq) 双编码器 经验分布 词特征表示
在线阅读 下载PDF
一种基于双词关联的文本特征选择模型
8
作者 高茂庭 王正欧 《计算机工程与应用》 CSCD 北大核心 2007年第10期183-185,共3页
向量空间模型(VSM)是一种常用的文本特征表示方法,它是基于特征独立性假设建立起来的,将文本看成是由一个个独立的词所构成,这些词之间互不关联,这种方法丢失了文本中词间的一些重要的关联特征信息。基于双词关联的文本特征选择模型是在... 向量空间模型(VSM)是一种常用的文本特征表示方法,它是基于特征独立性假设建立起来的,将文本看成是由一个个独立的词所构成,这些词之间互不关联,这种方法丢失了文本中词间的一些重要的关联特征信息。基于双词关联的文本特征选择模型是在VSM的基础上,选择文本中相邻的单词之间的关联信息也作为文本特征,从而能更加充分地表达文本的特征信息。实验表明,这是一种更加有效的文本特征选择方法。 展开更多
关键词 文本挖掘 特征选择 双词关联 聚类分析
在线阅读 下载PDF
基于语义结构的迁移学习文本特征对齐算法 被引量:4
9
作者 卢晨阳 康雁 +1 位作者 杨成荣 蒲斌 《计算机工程》 CAS CSCD 北大核心 2019年第5期116-121,共6页
特征对齐在源域和目标域空间不一致时会导致负迁移现象。为此,提出一种基于GloVe和WordNet模型的迁移学习文本特征对齐算法。根据数据样本词性和类别对分类任务进行特征筛选,选择源域和目标域的领域共有词作为枢纽词,使用GloVe模型对齐... 特征对齐在源域和目标域空间不一致时会导致负迁移现象。为此,提出一种基于GloVe和WordNet模型的迁移学习文本特征对齐算法。根据数据样本词性和类别对分类任务进行特征筛选,选择源域和目标域的领域共有词作为枢纽词,使用GloVe模型对齐源域和目标域中最相似的非枢纽特征。在此基础上,根据源域和目标域的非共有特征,通过WordNet模型对领域独立特征完成强语义对齐,同时利用含有枢纽特征的对齐三元组表示对齐特征。实验结果表明,该算法可有效降低特征维度,扩充特征空间,提高跨领域文本分类精度。 展开更多
关键词 迁移学习 特征对齐 词向量 词网 文本挖掘
在线阅读 下载PDF
融合耦合距离区分度和强类别特征的短文本相似度计算方法 被引量:13
10
作者 马慧芳 刘文 +1 位作者 李志欣 蔺想红 《电子学报》 EI CAS CSCD 北大核心 2019年第6期1331-1336,共6页
短文本相似度计算在社会网络、文本挖掘和自然语言处理等领域中起着至关重要的作用.针对短文本内容简短、特征稀疏等特点,以及传统的短文本相似度计算忽略类别信息等问题,提出一种融合耦合距离区分度和强类别特征的短文本相似度计算方法... 短文本相似度计算在社会网络、文本挖掘和自然语言处理等领域中起着至关重要的作用.针对短文本内容简短、特征稀疏等特点,以及传统的短文本相似度计算忽略类别信息等问题,提出一种融合耦合距离区分度和强类别特征的短文本相似度计算方法.一方面,在整个短文本语料库中利用两个共现词之间的距离计算词项共现距离相关度,并以此来对词项加权从而捕获词项间内联和外联关系,得到短文本的耦合距离区分度相似度;另一方面,基于少量带类别标签的监督数据提取每类中强类别区分能力的特征项作为强类别特征集合,并利用词项的上下文来对强类别特征语义消歧,然后基于文本间包含相同类别的强类别特征数量来衡量文本间的相似度.最后,本文结合耦合距离区分度和强类别特征来衡量短文本的相似度.经实验证明本文提出的方法能够提高短文本相似度计算的准确率. 展开更多
关键词 文本挖掘 自然语言处理 文本聚类 社会网络 耦合关系 特征提取 语义消歧 相似度计算
在线阅读 下载PDF
基于话题标签和转发关系的微博聚类和主题词提取 被引量:2
11
作者 束珏 成卫青 邓聪 《计算机应用》 CSCD 北大核心 2016年第2期460-464,共5页
针对微博聚类正确率不高的问题,在研究微博数据特点的基础上,利用微博hashtag来增强向量空间模型,使用微博之间的转发关系提升聚类的准确性,并利用微博的转发、评论数以及微博发布者信息来提取聚类中的主题词。在新浪微博数据集上进行... 针对微博聚类正确率不高的问题,在研究微博数据特点的基础上,利用微博hashtag来增强向量空间模型,使用微博之间的转发关系提升聚类的准确性,并利用微博的转发、评论数以及微博发布者信息来提取聚类中的主题词。在新浪微博数据集上进行实验发现,与k-means算法和基于加权语义和贝叶斯的中文短文本增量聚类算法(ICST-WSNB)相比,基于话题标签和转发关系的微博聚类算法的准确率比k-means算法提高了18.5%,比ICSTWSNB提高了6.48%,召回率以及F-值也有了一定的提高。实验结果表明基于话题标签和转发关系的微博聚类算法能够有效地提高微博聚类的正确率,进而获取更加合适的主题词。 展开更多
关键词 微博数据 文本挖掘 特征权重 微博转发关系 主题词提取
在线阅读 下载PDF
基于TAKE的中文关键短语提取算法研究 被引量:1
12
作者 刘晨晖 张德生 胡钢 《计算机工程与应用》 CSCD 北大核心 2020年第10期115-121,共7页
针对传统的中文关键短语提取算法所提取关键短语准确率低、歧义性强和涵盖信息量少等问题,在英文关键短语提取算法TAKE(Totally Automated Keyword Extraction)的启发下,加入基于多领域特异性的新词识别技术,并改进了原有算法的文本分... 针对传统的中文关键短语提取算法所提取关键短语准确率低、歧义性强和涵盖信息量少等问题,在英文关键短语提取算法TAKE(Totally Automated Keyword Extraction)的启发下,加入基于多领域特异性的新词识别技术,并改进了原有算法的文本分词、词语过滤和特征计算方法,提出了一种改进的TAKE算法,并应用于中文文本关键短语挖掘中。与多种传统关键短语提取算法的对比实验结果表明,该算法提取的精确率、召回率和F值指标的量化结果相比于传统算法有比较明显的提升。 展开更多
关键词 文本挖掘 分词 词语过滤 特征计算 关键短语提取
在线阅读 下载PDF
基于词频和情景语义的产品特征提取方法 被引量:4
13
作者 陈可嘉 郑晶晶 +1 位作者 靳健 赵政 《广西大学学报(自然科学版)》 CAS 北大核心 2020年第6期1413-1422,共10页
为解决目前产品特征提取方法在种子特征词集构建上存在需要大量人工标注、代表性不足等问题,提出一种基于词频和情景语义的产品特征提取方法。通过少量高频名词和关联规则构建种子特征词集,采用神经网络语言模型进行词向量训练,再通过... 为解决目前产品特征提取方法在种子特征词集构建上存在需要大量人工标注、代表性不足等问题,提出一种基于词频和情景语义的产品特征提取方法。通过少量高频名词和关联规则构建种子特征词集,采用神经网络语言模型进行词向量训练,再通过计算向量间余弦相似度对种子特征词集进行扩充,最后经人工分类后得到完整的产品特征词典。实验结果显示,该方法采用种子特征词集相似度排名前九的单词(top9)来进行产品特征扩充时效果最好,F1值达到了76.44%。此外,与K-means+Word2vec、LDA等方法在top5,top10,top15,top20水平上的对比实验表明,无论是准确率、召回率还是F1值,该方法都更优。 展开更多
关键词 产品特征提取 词频 情景语义 种子特征词集 词向量 文本挖掘
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部