-
题名基于网页结构挖掘的信息提取
被引量:2
- 1
-
-
作者
李媛
耿桦
张甍
潘金贵
-
机构
南京大学计算机软件新技术国家重点实验室
-
出处
《计算机科学》
CSCD
北大核心
2006年第3期191-193,218,共4页
-
文摘
本文提出了两种细粒度的、基于网页结构挖掘的信息提取方法,比较了它们的优缺点,并给出了相应具体实现的性能测试和结果分析。
-
关键词
信息提取
网页结构挖掘
重复模式
时间特征
RSS
-
Keywords
Information extraction, Mining structures of Web pages, Repeated pattern, Time characteristic, RSS
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
TP311.5
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于PageRank算法的权威值不均衡分配问题
被引量:20
- 2
-
-
作者
田甜
倪林
-
机构
中国科技大学电子工程与信息科学系
-
出处
《计算机工程》
CAS
CSCD
北大核心
2007年第18期53-55,共3页
-
基金
国家自然科学基金资助项目(60372059)
安徽省自然科学基金资助项目(03042206)
-
文摘
PageRank对所链接的网页的"权威值"存在平均分配的思想,由于互联网的网页是千差万别的,因此这种方法存在一定的局限性。该文利用了Web链接结构,提出了一种权威值不均衡分配的方法(IPR),通过与PageRank算法相比,IPR的排序结果比PageRank提高了近90%的相关度。
-
关键词
网页结构挖掘
网页排序
改进的PageRank
-
Keywords
Web structure mining
page ranking
improved PageRank(IPR)
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-