期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
面向图书主题的爬虫算法研究 被引量:6
1
作者 张莉婧 曾庆涛 +2 位作者 李业丽 孙华艳 字云飞 《计算机科学》 CSCD 北大核心 2017年第B11期460-463,469,共5页
针对图书信息爬取结果中包含大量无用数据的问题,提出一种面向图书主题的爬虫算法。该算法主要由两部分组成:一部分是基于开放式分类目录系统(ODP)的动态关键词扩充的主题描述方法;另一部分是基于词项语义扩展度的向量空间模型(VSM)主... 针对图书信息爬取结果中包含大量无用数据的问题,提出一种面向图书主题的爬虫算法。该算法主要由两部分组成:一部分是基于开放式分类目录系统(ODP)的动态关键词扩充的主题描述方法;另一部分是基于词项语义扩展度的向量空间模型(VSM)主题相关度算法。通过实验对新算法、基于关键词的VSM算法以及基于ODP的VSM算法进行了对比分析,结果表明新算法在图书主题爬虫中更具有优势。 展开更多
关键词 主题爬虫 开放式分类目录系统 向量空间模型 语义扩展度
在线阅读 下载PDF
基于代理的互联网用户行为分析研究 被引量:1
2
作者 张世乐 魏芳 费仲超 《计算机应用与软件》 CSCD 2011年第8期138-140,176,共4页
在互联网智能化的过程中,互联网用户行为的分析是一个必要的工作。通过架设网络代理,记录用户在互联网上发出的HTTP请求,建立用户行为日志库,并根据Web访问的特性对用户行为日志进行过滤、聚类,缩减数据规模,最后利用开放式分类目录ODP(... 在互联网智能化的过程中,互联网用户行为的分析是一个必要的工作。通过架设网络代理,记录用户在互联网上发出的HTTP请求,建立用户行为日志库,并根据Web访问的特性对用户行为日志进行过滤、聚类,缩减数据规模,最后利用开放式分类目录ODP(Open Directory Project)对用户行为进行分类统计,将没有语义信息的用户Web访问记录转化为体现用户偏好的统计直方图。该分析结果可用于互联网信息的个性化推荐,如新闻、商品、广告等,具有较高的商业价值。 展开更多
关键词 用户行为 过滤 聚类 开放式分类目录
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部