-
题名面向图书主题的爬虫算法研究
被引量:6
- 1
-
-
作者
张莉婧
曾庆涛
李业丽
孙华艳
字云飞
-
机构
北京印刷学院信息科学技术学院
-
出处
《计算机科学》
CSCD
北大核心
2017年第B11期460-463,469,共5页
-
基金
北京市科技创新服务能力协同创新项目(PXM2016_014223_000025)资助
-
文摘
针对图书信息爬取结果中包含大量无用数据的问题,提出一种面向图书主题的爬虫算法。该算法主要由两部分组成:一部分是基于开放式分类目录系统(ODP)的动态关键词扩充的主题描述方法;另一部分是基于词项语义扩展度的向量空间模型(VSM)主题相关度算法。通过实验对新算法、基于关键词的VSM算法以及基于ODP的VSM算法进行了对比分析,结果表明新算法在图书主题爬虫中更具有优势。
-
关键词
主题爬虫
开放式分类目录系统
向量空间模型
语义扩展度
-
Keywords
Focused crawler, ODP, VSM,Semantic extension
-
分类号
TP302.1
[自动化与计算机技术—计算机系统结构]
-
-
题名基于代理的互联网用户行为分析研究
被引量:1
- 2
-
-
作者
张世乐
魏芳
费仲超
-
机构
上海贝尔股份有限公司产品线战略及技术领先部首席技术官部门
复旦大学计算机科学与技术学院
-
出处
《计算机应用与软件》
CSCD
2011年第8期138-140,176,共4页
-
基金
上海市博士后项目(10R21421900)
-
文摘
在互联网智能化的过程中,互联网用户行为的分析是一个必要的工作。通过架设网络代理,记录用户在互联网上发出的HTTP请求,建立用户行为日志库,并根据Web访问的特性对用户行为日志进行过滤、聚类,缩减数据规模,最后利用开放式分类目录ODP(Open Directory Project)对用户行为进行分类统计,将没有语义信息的用户Web访问记录转化为体现用户偏好的统计直方图。该分析结果可用于互联网信息的个性化推荐,如新闻、商品、广告等,具有较高的商业价值。
-
关键词
用户行为
过滤
聚类
开放式分类目录
-
Keywords
User behavior Filtering Clustering ODP
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-