-
题名一种结合特征选择和链接过滤的主动协作分类方法
被引量:1
- 1
-
-
作者
李丽娜
欧阳继红
刘大有
高文杰
-
机构
吉林大学计算机科学与技术学院
符号计算与知识工程教育部重点实验室(吉林大学)
吉林大学数学学院
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2013年第11期2349-2357,共9页
-
基金
国家自然科学基金项目(60973088
61170092)
国家自然科学基金重点项目(61133011)
-
文摘
分类是网络数据挖掘中的重要研究课题之一.协作分类利用网络节点之间的依赖关系对相互链接的节点集合进行组合分类,其精度高于传统的分类方法,受到广泛关注,并被应用于文档分类、蛋白质结构预测、图像处理和社会网络分析等众多领域.提出一种结合特征选择和链接过滤的主动协作分类方法,算法首先基于最小冗余-最大相关方法选择重要的属性,并建立隐式链接;之后过滤初始链接得到显式链接,最后集成隐式和显式链接形成新的网络结构,再应用协作分类方法实现分类.在3个公共数据集上将该方法分别与典型的传统分类方法、协作分类方法进行对比,结果表明该方法能获得较高的分类精度,对稀疏标记的网络其优势更加明显.
-
关键词
协作分类
特征选择
链接过滤
主动学习
网络数据
-
Keywords
collective classification feature selection, link filtering active learning network data
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名主题蜘蛛的设计与实现
被引量:3
- 2
-
-
作者
宋宇
孟祥增
-
机构
山东师范大学教育技术系
-
出处
《郑州大学学报(理学版)》
CAS
2007年第2期42-45,49,共5页
-
基金
山东省自然科学基金资助项目
编号y2005G21
-
文摘
针对多媒体资源在网上的分布特点,采用链接类型过滤、网页内容过滤、链接内容过滤三层过滤和临时页面存储、目标页面存储、中间链接存储、更新存储四层存储机制,设计并实现了一个对包含多媒体资源(音频、视频和Flash动画)的网页进行搜集的主题蜘蛛.实验结果显示,该主题蜘蛛能有效提高查准率.
-
关键词
主题蜘蛛
链接过滤
内容过滤
-
Keywords
focused-spider
link filter
content filter
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名网络竞争情报主题采集技术研究
被引量:5
- 3
-
-
作者
田雪筠
-
机构
中国科学院国家科学图书馆
中国科学院大学
-
出处
《图书与情报》
CSSCI
北大核心
2014年第5期132-137,共6页
-
文摘
文章设计与实现了一种网络竞争情报的主题采集系统。该系统在进行主题预测时采用的基于改进的朴素贝叶斯算法提高了主题判断准确率,在进行链接预测时采用的基于规则与锚文本主题相似度结合的算法,避免了URL锚文本较短和噪声的问题。与宽度优先的采集技术相比,通过实验验证该方法具有明显的优越性。
-
关键词
竞争情报
主题爬虫
链接过滤
主题过滤
-
Keywords
competitive intelligence
focused crawler
URL filtering
topic filtering
-
分类号
G353.1
[文化科学—情报学]
G350
[文化科学—情报学]
-