-
题名一种基于标签路径聚类的文本信息抽取算法
被引量:2
- 1
-
-
作者
刘云峰
-
机构
山西工程职业技术学院网络电教中心
-
出处
《计算机应用与软件》
CSCD
2010年第11期199-202,共4页
-
文摘
针对网页噪音和网页非结构化信息抽取复杂度高的问题,提出一种基于标签路径(XPATH)聚类的文本信息抽取算法。该算法首先对网页噪音预处理,根据网页的DOM树结构进行标签路径聚类,通过自动训练的阈值和网页.分割算法快速判定网页的关键部分,根据数据块中的嵌套结构获取网页文本抽取模板。对不同类型网站实验表明,该方法获得快速和较高准确度的效果。
-
关键词
XPATH
网页分割
信息抽取
聚类
阈值
-
Keywords
Xpath
Webpage segmentation
Information extraction
Clustering
Threshold
-
分类号
TP311.1
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于标签路径聚类的文本信息抽取算法
被引量:1
- 2
-
-
作者
刘云峰
-
机构
山西工程职业技术学院网络电教中心
-
出处
《计算机工程》
CAS
CSCD
北大核心
2010年第12期83-84,87,共3页
-
文摘
针对网页噪音和网页非结构化信息抽取复杂度高的问题,提出一种基于标签路径聚类的文本信息抽取算法。对网页噪音进行预处理,根据网页的文档对象模型树结构进行标签路径聚类,通过自动训练的阈值和网页分割算法快速判定网页的关键部分,根据数据块中的嵌套结构获取网页文本抽取模板。对不同类型网站的实验结果表明,该算法运行速度快、准确度高。
-
关键词
标签路径
网页分割
信息抽取
聚类
阈值
-
Keywords
tag path
Web page segmentation
information extraction
clustering
threshold
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-