期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于分类关键词词频模型的地缘政治主题爬虫设计 被引量:4
1
作者 魏勇 胡丹露 +1 位作者 郝晨光 欧小平 《计算机工程》 CAS CSCD 北大核心 2016年第2期45-50,共6页
针对词频-逆文档频率模型应用于主题爬虫时存在的非结构化问题,设计基于分类关键词词频(CKTF)模型的主题爬虫。利用网页文档结构特征和主题词语的分布信息将网页映射为五维向量,根据维基百科中文语料库和搜狗全网新闻数据语料库选择关... 针对词频-逆文档频率模型应用于主题爬虫时存在的非结构化问题,设计基于分类关键词词频(CKTF)模型的主题爬虫。利用网页文档结构特征和主题词语的分布信息将网页映射为五维向量,根据维基百科中文语料库和搜狗全网新闻数据语料库选择关键词并计算其与地缘政治主题的相关度,使用支持向量机实现网页向量的学习和分类。实验结果表明,与传统主题爬虫相比,该主题爬虫能够挖掘地缘政治主题中的丰富内容,有效衡量网页与主题的相关度,具有较高的爬准率和稳定性。 展开更多
关键词 主题爬虫 分类关键词词频模型 词向量 支持向量机 相关度
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部