期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于标签密度的自适应正文提取方法 被引量:3
1
作者 孙皓 董守斌 《郑州大学学报(理学版)》 CAS 北大核心 2009年第1期44-47,共4页
提出一种新颖的网页去噪方法,利用标签和锚文本在网页中不同部分的分布差异来判断是否为正文信息,同时根据正文部分的不同区域标签的分布波动,算法自我学习并调整相关阈值,可有效去除网页噪音.该方法简单易行,网页正文信息提取及网页分... 提出一种新颖的网页去噪方法,利用标签和锚文本在网页中不同部分的分布差异来判断是否为正文信息,同时根据正文部分的不同区域标签的分布波动,算法自我学习并调整相关阈值,可有效去除网页噪音.该方法简单易行,网页正文信息提取及网页分类的实验均表明了该方法是有效的. 展开更多
关键词 标签密度 锚文本密度 正文信息 网页去噪
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部