期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于标题机器学习的网页分割方法 被引量:1
1
作者 李进生 乐惠骁 童名文 《计算机科学》 CSCD 北大核心 2018年第B06期583-587,共5页
针对已有网页分割方法都基于文档对象模型实现且实现难度较高的问题,提出了一种采用字符串数据模型实现网页分割的新方法。该方法通过机器学习获取网页标题的特征,利用标题实现网页分割。首先,利用网页行块分布函数和网页标题标签学习... 针对已有网页分割方法都基于文档对象模型实现且实现难度较高的问题,提出了一种采用字符串数据模型实现网页分割的新方法。该方法通过机器学习获取网页标题的特征,利用标题实现网页分割。首先,利用网页行块分布函数和网页标题标签学习得到网页标题特征;然后,基于标题将网页分割成内容块;最后,利用块深度对内容块进行合并,完成网页分割。理论分析与实验结果表明,该方法中的算法具有O(n)的时间复杂度和空间复杂度,该方法对于高校门户、博客日志和资源网站等类型的网页具有较好的分割效果,并且可以用于网页信息管理的多种应用中,具有良好的应用前景。 展开更多
关键词 网页分割 标题 行块分布函数 块深度 机器学习
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部