期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于全置信度关联分析的web层次聚类方法 被引量:2
1
作者 史庆伟 赵政 鲍虎 《辽宁工程技术大学学报(自然科学版)》 EI CAS 北大核心 2007年第6期892-894,共3页
为了便于用户浏览网页信息,基于全置信度关联分析,提出了一种网页层次聚类的方法。该方法采用向量空间模型表示网页文档,将文档看成事务,文档的词汇视为事务中的项,根据关联挖掘算法发现文档之间的强关联规则产生基本类,然后利用图划分... 为了便于用户浏览网页信息,基于全置信度关联分析,提出了一种网页层次聚类的方法。该方法采用向量空间模型表示网页文档,将文档看成事务,文档的词汇视为事务中的项,根据关联挖掘算法发现文档之间的强关联规则产生基本类,然后利用图划分的算法完成网页文档的层次聚类。在关联规则产生过程中采用全置信度量发现强关联模式,规则的产生不受支持度阈值设置的影响,即使支持度阈值设置为零,也能发现强关联模式,有效地消除了弱相关的交叉支持模式。 展开更多
关键词 关联规则 层次聚类 网页文档 文本挖掘
在线阅读 下载PDF
基于条件随机域的Web信息抽取 被引量:2
2
作者 史庆伟 赵政 鲍虎 《辽宁工程技术大学学报(自然科学版)》 EI CAS 北大核心 2007年第4期570-572,共3页
为了获取隐藏在Internet中的信息,基于条件随机域模型(CRF),提出了一种Web信息抽取的方法。该方法对网页样本中的每一行加注标签,确定文本特征,建立条件随机域模型,采用拟牛顿迭代方法对样本进行训练,参照学习得到的条件概率分布模型,... 为了获取隐藏在Internet中的信息,基于条件随机域模型(CRF),提出了一种Web信息抽取的方法。该方法对网页样本中的每一行加注标签,确定文本特征,建立条件随机域模型,采用拟牛顿迭代方法对样本进行训练,参照学习得到的条件概率分布模型,实现网页搜索结果的抽取。与HMM模型相比,CRF模型支持网页文本的语言特征,抽取准确率高。实验结果表明,使用CRF模型的抽取准确率达到90%以上,高于使用HMM模型的抽取准确率。 展开更多
关键词 条件随机域 信息抽取 网页文档 拟牛顿法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部