期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
一种基于标签路径聚类的文本信息抽取算法 被引量:2
1
作者 刘云峰 《计算机应用与软件》 CSCD 2010年第11期199-202,共4页
针对网页噪音和网页非结构化信息抽取复杂度高的问题,提出一种基于标签路径(XPATH)聚类的文本信息抽取算法。该算法首先对网页噪音预处理,根据网页的DOM树结构进行标签路径聚类,通过自动训练的阈值和网页.分割算法快速判定网页的关键部... 针对网页噪音和网页非结构化信息抽取复杂度高的问题,提出一种基于标签路径(XPATH)聚类的文本信息抽取算法。该算法首先对网页噪音预处理,根据网页的DOM树结构进行标签路径聚类,通过自动训练的阈值和网页.分割算法快速判定网页的关键部分,根据数据块中的嵌套结构获取网页文本抽取模板。对不同类型网站实验表明,该方法获得快速和较高准确度的效果。 展开更多
关键词 XPATH 网页分割 信息抽取 聚类 阈值
在线阅读 下载PDF
基于标签路径聚类的文本信息抽取算法 被引量:1
2
作者 刘云峰 《计算机工程》 CAS CSCD 北大核心 2010年第12期83-84,87,共3页
针对网页噪音和网页非结构化信息抽取复杂度高的问题,提出一种基于标签路径聚类的文本信息抽取算法。对网页噪音进行预处理,根据网页的文档对象模型树结构进行标签路径聚类,通过自动训练的阈值和网页分割算法快速判定网页的关键部分,根... 针对网页噪音和网页非结构化信息抽取复杂度高的问题,提出一种基于标签路径聚类的文本信息抽取算法。对网页噪音进行预处理,根据网页的文档对象模型树结构进行标签路径聚类,通过自动训练的阈值和网页分割算法快速判定网页的关键部分,根据数据块中的嵌套结构获取网页文本抽取模板。对不同类型网站的实验结果表明,该算法运行速度快、准确度高。 展开更多
关键词 标签路径 网页分割 信息抽取 聚类 阈值
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部