-
题名Web文本挖掘的相关技术问题探讨
被引量:3
- 1
-
-
作者
谢秋华
-
机构
三明学院
-
出处
《长春理工大学学报(自然科学版)》
2010年第7期55-56,共2页
-
文摘
由于web文本挖掘信息量大,且缺乏结构化、组织的规整性,目前几乎多数的互联网查询工具都面临匹配的查准率低、给出的查询结果大量冗余,但是查全率却不高的问题。就Web文本挖掘的相关问题进行分析,在分析web挖掘和其研究方向的基础上,重点对于web文本挖掘进行探讨。
-
关键词
web挖掘
web文本挖掘
文本分类
-
分类号
T-55
[一般工业技术]
-
-
题名一种基于反馈机制的Web文本挖掘分类算法
- 2
-
-
作者
游福成
-
机构
北京印刷学院信息与机电工程学院
-
出处
《北京印刷学院学报》
2009年第2期52-54,58,共4页
-
基金
北京市教委科技面上项目(KM200610015006)
-
文摘
在传统的从训练到分类的两级结构的基础上,提出了一种带有反馈感知机制的、具有三级结构的Web文档分类算法。同时结合现代远程教育背景,实现了Web文本挖掘的分类原型系统。在系统上对各类远程教育站点上收集的文本资料信息自动进行分类挖掘,取得了较好的实验效果。
-
关键词
web文本挖掘
反馈机制
文本分类
-
Keywords
web text mining
feedback mechanism
text classification
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名Web文本挖掘及相关技术研究
被引量:4
- 3
-
-
作者
白翎雁
才书训
-
机构
东北大学信息科学与工程学院
-
出处
《沈阳工程学院学报(自然科学版)》
2008年第3期258-261,共4页
-
文摘
随着信息的海量化,如何获取用户所需已经日益突显出其重要性.Web文本挖掘可对Web上大量文档集合的内容进行总结、分类、聚类、分析以便于利用.介绍了Web文本挖掘的定义、特点,重点分析了其相关的几种关键技术—文本特征表示、特征子选取、文本分类、文本聚类,并对其发展作以展望.
-
关键词
web文本挖掘
特征表示
特征子集选取
文本分类
文本聚类
-
Keywords
web text mining feature representation
characteristic subset selection
text classification
text cluster
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名粗糙集理论在Web文本挖掘特征提取中的应用
被引量:1
- 4
-
-
作者
陈淑珍
卢昌荆
林克明
-
机构
三明学院计算机科学系
-
出处
《武汉化工学院学报》
2004年第4期86-88,共3页
-
文摘
特征提取是文本挖掘基础性、关键性的技术,现将基于粗糙集的属性约简算法应用于文本挖掘中特征项的提取工作,以解决文本特征降维问题.实验表明,利用粗糙集方法进行特征提取,能够去掉多余属性,大大降低文本特征项的维数.
-
关键词
特征提取
粗糙集
web文本挖掘
-
Keywords
feature extraction
RouhgSet
web text mining
-
分类号
O144
[理学—基础数学]
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名Web文本挖掘及其分类技术研究
- 5
-
-
作者
李川
-
机构
重庆师范大学涉外商贸学院教务处
-
出处
《数字技术与应用》
2010年第7期74-75,共2页
-
文摘
本文以Web挖掘为基础。首先,从定义、功能、过程3方面介绍了Web内容挖掘中的文本挖掘;其次,重点探讨了Web文本挖掘的两种重要功能——分类及其它们常用的算法,并分别对算法做了比较;最后,得出结论并进行了展望。
-
关键词
web文本挖掘
分类算法
比较
-
Keywords
web Text Mining
Categorization Algorithm
Comparison
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名Web数据挖掘预处理技术研究
被引量:1
- 6
-
-
作者
李毅
-
机构
同济大学软件学院
-
出处
《信息技术与信息化》
2015年第3期89-90,共2页
-
文摘
数据预处理是将原始Web转化成为适合进行数据挖掘的中间表现形式,并且在web文本的挖掘过程中起到了决定性作用。文章主要探讨了数据预处理的环节过程,并介绍了在这个过程中会出现的某些情况的特殊处理方法。
-
关键词
web文本挖掘
数据预处理
数据挖掘
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于Web挖掘的层次凝聚类算法研究
被引量:2
- 7
-
-
作者
杨金花
-
机构
西安铁路职业技术学
-
出处
《电子设计工程》
2012年第12期30-32,共3页
-
文摘
网络提供了海量的共享资源,人们需要从网络上搜索出自己感兴趣的信息,由此产生了Web挖掘的问题。Web挖掘就是借用数据挖掘技术来实现的。Web挖掘主要是文本信息的挖掘,本文主要研究了实现文本挖掘的层次凝聚类算法,对于传统的算法存在的问题,提出了改进的算法,研究了相似度值对整个算法过程的影响,设计了一个动态改变相似度值的计算公式。
-
关键词
数据挖掘
web文本挖掘
层次凝聚类算法
相似度值
改进的层次凝聚类算法
-
Keywords
data mining
web text mining
hierarchical agglomerative clustering class algorithm
similarity value
improved hierarchical agglomerative clustering algorithm
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名一种新的频集发现算法P&FP
被引量:2
- 8
-
-
作者
冯中毅
董海棠
-
机构
兰州师范高等专科学校计算机科学教育系
兰州交通大学机电工程学院
-
出处
《兰州交通大学学报》
CAS
2004年第6期81-84,共4页
-
文摘
在分析已有关联规则挖掘算法的基础上 ,提出了应用于Web文本集的特征关联规则挖掘框架 ,详细地论述了该框架所涉及的主要技术和实现过程中涉及的诸多问题 ,据此给出了该框架主要模块的实现算法 .在该框架中 ,Web文本集的特征关联规则挖掘以Web文本的结构化处理和特征化处理为前提 ,核心的挖掘模块由频集发现算法P&FP和关联规则生成算法GenNoRedundantRule构成 ,算法P&FP结合了Partition算法的数据分片思想和FP 生成树算法的高效性 ,算法GenNoRedundantRule可以避免大量冗余规则的产生 .这两个算法较之已有的算法是比较高效的 。
-
关键词
web挖掘
web文本挖掘
关联规则
特征抽取
-
Keywords
web mining
web text mining
association rule
character extraction
-
分类号
TP311.12
[自动化与计算机技术—计算机软件与理论]
-