-
题名基于标题机器学习的网页分割方法
被引量:1
- 1
-
-
作者
李进生
乐惠骁
童名文
-
机构
武汉市广播电视大学现代教育技术中心
华中师范大学教育信息技术学院
-
出处
《计算机科学》
CSCD
北大核心
2018年第B06期583-587,共5页
-
基金
教育部人文社科基金资助项目:数字化学习资源无障碍适配决策模型研究(15YJA880062)资助
-
文摘
针对已有网页分割方法都基于文档对象模型实现且实现难度较高的问题,提出了一种采用字符串数据模型实现网页分割的新方法。该方法通过机器学习获取网页标题的特征,利用标题实现网页分割。首先,利用网页行块分布函数和网页标题标签学习得到网页标题特征;然后,基于标题将网页分割成内容块;最后,利用块深度对内容块进行合并,完成网页分割。理论分析与实验结果表明,该方法中的算法具有O(n)的时间复杂度和空间复杂度,该方法对于高校门户、博客日志和资源网站等类型的网页具有较好的分割效果,并且可以用于网页信息管理的多种应用中,具有良好的应用前景。
-
关键词
网页分割
标题
行块分布函数
块深度
机器学习
-
Keywords
Webpage segmentation
Title
liner block function
block depth
Machine learning
-
分类号
TP37
[自动化与计算机技术—计算机系统结构]
-