期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
节点频度和语义距离相结合的网页正文信息抽取 被引量:3
1
作者 孟军 刘秋水 王秀坤 《计算机工程与应用》 CSCD 北大核心 2009年第1期140-143,共4页
提出了一种带有节点频度的扩展DOM树模型—BF-DOM树模型(Block node Frequency-Document Object Module),并基于此模型进行网页正文信息的抽取。该方法通过向DOM树的某些节点上添加频度和相关度属性来构造文中新的模型,再结合语义距离... 提出了一种带有节点频度的扩展DOM树模型—BF-DOM树模型(Block node Frequency-Document Object Module),并基于此模型进行网页正文信息的抽取。该方法通过向DOM树的某些节点上添加频度和相关度属性来构造文中新的模型,再结合语义距离抽取网页正文信息。方法主要基于以下三点考虑:在同源的网页集合内噪音节点的频度值很高;正文信息一般由非链接文字组成;与正文相关的链接和文章标题有较近的语义距离。针对8个网站的实验表明,该方法能有效地抽取正文信息,召回率和准确率都在96%以上,优于基于信息熵的抽取方法。 展开更多
关键词 信息提取 带有节点频度文档对象模型树 节点频度 语义距离
在线阅读 下载PDF
DF还是IDF?主特征模型在Web信息检索中的使用 被引量:13
2
作者 张敏 马少平 宋睿华 《软件学报》 EI CSCD 北大核心 2005年第5期1012-1020,共9页
Web信息检索的难点之一就是简短、模糊的用户查询与存在大量冗余和噪声的文档之间的不匹配.对Web文档信息特征进行分析,提出Web文档主特征词、主特征域和主特征空间的概念,在该空间上使用文档频度DF(document frequency)信息而非传统意... Web信息检索的难点之一就是简短、模糊的用户查询与存在大量冗余和噪声的文档之间的不匹配.对Web文档信息特征进行分析,提出Web文档主特征词、主特征域和主特征空间的概念,在该空间上使用文档频度DF(document frequency)信息而非传统意义上的IDF(inverse document frequency)信息进行权值计算,并给出一个改进的相似度计算模型.使用该模型在10G和19G的两个大规模Web文档集合上进行了3组标准测试.比较实验表明,与传统IDF思想相比,在各项评价指标上,DF相关的主特征权值计算方法都能始终较大幅度地提高系统性能,最大达到18.6%的性能改善. 展开更多
关键词 WEB信息检索 主特征模型 权值计算 文档频度
在线阅读 下载PDF
基于种子约束LDA的产品属性提取方法 被引量:1
3
作者 陈可嘉 郑晶晶 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2022年第6期37-48,70,共13页
为了从评论中分类提取产品属性,使得评论能够按照不同产品属性分别进行展示,提高消费者作出购买决策的效率,文中提出了基于种子约束LDA(隐含Dirichlet分布)的产品属性提取方法。该方法首先利用词频-逆文档频度(TF-IDF)算法自动提取关键... 为了从评论中分类提取产品属性,使得评论能够按照不同产品属性分别进行展示,提高消费者作出购买决策的效率,文中提出了基于种子约束LDA(隐含Dirichlet分布)的产品属性提取方法。该方法首先利用词频-逆文档频度(TF-IDF)算法自动提取关键词,作为属性种子集;接着对文档进行初次重组和二次重组,使二次重组后的文档只对一个产品属性进行描述,以解决长文本多属性类共现问题和短文本稀疏性问题,提高文档重组率;然后应用must-link和cannot-link两种种子约束定义概率扩缩值,通过对吉布斯采样过程的约束来影响LDA的主题分配,使得训练结果更加合理;最后将种子约束LDA生成的主题映射到先验属性类别上。定性分析(属性类别、属性词)和定量分析(准确率、熵值、纯度)结果表明,文中方法的准确率和纯度均高于现有的比较方法,而熵值低于现有的比较方法,说明了文中方法具有更好的聚类效果。 展开更多
关键词 属性提取 词频-逆文档频度 LDA模型 种子约束 重组 属性类别映射
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部