期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
节点频度和语义距离相结合的网页正文信息抽取
被引量:
3
1
作者
孟军
刘秋水
王秀坤
《计算机工程与应用》
CSCD
北大核心
2009年第1期140-143,共4页
提出了一种带有节点频度的扩展DOM树模型—BF-DOM树模型(Block node Frequency-Document Object Module),并基于此模型进行网页正文信息的抽取。该方法通过向DOM树的某些节点上添加频度和相关度属性来构造文中新的模型,再结合语义距离...
提出了一种带有节点频度的扩展DOM树模型—BF-DOM树模型(Block node Frequency-Document Object Module),并基于此模型进行网页正文信息的抽取。该方法通过向DOM树的某些节点上添加频度和相关度属性来构造文中新的模型,再结合语义距离抽取网页正文信息。方法主要基于以下三点考虑:在同源的网页集合内噪音节点的频度值很高;正文信息一般由非链接文字组成;与正文相关的链接和文章标题有较近的语义距离。针对8个网站的实验表明,该方法能有效地抽取正文信息,召回率和准确率都在96%以上,优于基于信息熵的抽取方法。
展开更多
关键词
信息提取
带有节点
频度
的
文档
对象模型树
节点
频度
语义距离
在线阅读
下载PDF
职称材料
DF还是IDF?主特征模型在Web信息检索中的使用
被引量:
13
2
作者
张敏
马少平
宋睿华
《软件学报》
EI
CSCD
北大核心
2005年第5期1012-1020,共9页
Web信息检索的难点之一就是简短、模糊的用户查询与存在大量冗余和噪声的文档之间的不匹配.对Web文档信息特征进行分析,提出Web文档主特征词、主特征域和主特征空间的概念,在该空间上使用文档频度DF(document frequency)信息而非传统意...
Web信息检索的难点之一就是简短、模糊的用户查询与存在大量冗余和噪声的文档之间的不匹配.对Web文档信息特征进行分析,提出Web文档主特征词、主特征域和主特征空间的概念,在该空间上使用文档频度DF(document frequency)信息而非传统意义上的IDF(inverse document frequency)信息进行权值计算,并给出一个改进的相似度计算模型.使用该模型在10G和19G的两个大规模Web文档集合上进行了3组标准测试.比较实验表明,与传统IDF思想相比,在各项评价指标上,DF相关的主特征权值计算方法都能始终较大幅度地提高系统性能,最大达到18.6%的性能改善.
展开更多
关键词
WEB信息检索
主特征模型
权值计算
文档频度
在线阅读
下载PDF
职称材料
基于种子约束LDA的产品属性提取方法
被引量:
1
3
作者
陈可嘉
郑晶晶
《华南理工大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2022年第6期37-48,70,共13页
为了从评论中分类提取产品属性,使得评论能够按照不同产品属性分别进行展示,提高消费者作出购买决策的效率,文中提出了基于种子约束LDA(隐含Dirichlet分布)的产品属性提取方法。该方法首先利用词频-逆文档频度(TF-IDF)算法自动提取关键...
为了从评论中分类提取产品属性,使得评论能够按照不同产品属性分别进行展示,提高消费者作出购买决策的效率,文中提出了基于种子约束LDA(隐含Dirichlet分布)的产品属性提取方法。该方法首先利用词频-逆文档频度(TF-IDF)算法自动提取关键词,作为属性种子集;接着对文档进行初次重组和二次重组,使二次重组后的文档只对一个产品属性进行描述,以解决长文本多属性类共现问题和短文本稀疏性问题,提高文档重组率;然后应用must-link和cannot-link两种种子约束定义概率扩缩值,通过对吉布斯采样过程的约束来影响LDA的主题分配,使得训练结果更加合理;最后将种子约束LDA生成的主题映射到先验属性类别上。定性分析(属性类别、属性词)和定量分析(准确率、熵值、纯度)结果表明,文中方法的准确率和纯度均高于现有的比较方法,而熵值低于现有的比较方法,说明了文中方法具有更好的聚类效果。
展开更多
关键词
属性提取
词频-逆
文档频度
LDA模型
种子约束
重组
属性类别映射
在线阅读
下载PDF
职称材料
题名
节点频度和语义距离相结合的网页正文信息抽取
被引量:
3
1
作者
孟军
刘秋水
王秀坤
机构
大连理工大学计算机科学与工程系
出处
《计算机工程与应用》
CSCD
北大核心
2009年第1期140-143,共4页
基金
国家自然科学基金~~
文摘
提出了一种带有节点频度的扩展DOM树模型—BF-DOM树模型(Block node Frequency-Document Object Module),并基于此模型进行网页正文信息的抽取。该方法通过向DOM树的某些节点上添加频度和相关度属性来构造文中新的模型,再结合语义距离抽取网页正文信息。方法主要基于以下三点考虑:在同源的网页集合内噪音节点的频度值很高;正文信息一般由非链接文字组成;与正文相关的链接和文章标题有较近的语义距离。针对8个网站的实验表明,该方法能有效地抽取正文信息,召回率和准确率都在96%以上,优于基于信息熵的抽取方法。
关键词
信息提取
带有节点
频度
的
文档
对象模型树
节点
频度
语义距离
Keywords
information extraction
Block node Frequency-Document Object Module(BF-DOM) tree
node frequency
semantic distance
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
DF还是IDF?主特征模型在Web信息检索中的使用
被引量:
13
2
作者
张敏
马少平
宋睿华
机构
清华大学计算机科学与技术系
出处
《软件学报》
EI
CSCD
北大核心
2005年第5期1012-1020,共9页
基金
国家自然科学基金~~
文摘
Web信息检索的难点之一就是简短、模糊的用户查询与存在大量冗余和噪声的文档之间的不匹配.对Web文档信息特征进行分析,提出Web文档主特征词、主特征域和主特征空间的概念,在该空间上使用文档频度DF(document frequency)信息而非传统意义上的IDF(inverse document frequency)信息进行权值计算,并给出一个改进的相似度计算模型.使用该模型在10G和19G的两个大规模Web文档集合上进行了3组标准测试.比较实验表明,与传统IDF思想相比,在各项评价指标上,DF相关的主特征权值计算方法都能始终较大幅度地提高系统性能,最大达到18.6%的性能改善.
关键词
WEB信息检索
主特征模型
权值计算
文档频度
Keywords
Algorithms
Feature extraction
Internet
Performance
Text processing
分类号
TP393 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于种子约束LDA的产品属性提取方法
被引量:
1
3
作者
陈可嘉
郑晶晶
机构
福州大学经济与管理学院
出处
《华南理工大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2022年第6期37-48,70,共13页
基金
国家自然科学基金资助项目(71701019)
国家社会科学基金资助项目(19BTQ072)。
文摘
为了从评论中分类提取产品属性,使得评论能够按照不同产品属性分别进行展示,提高消费者作出购买决策的效率,文中提出了基于种子约束LDA(隐含Dirichlet分布)的产品属性提取方法。该方法首先利用词频-逆文档频度(TF-IDF)算法自动提取关键词,作为属性种子集;接着对文档进行初次重组和二次重组,使二次重组后的文档只对一个产品属性进行描述,以解决长文本多属性类共现问题和短文本稀疏性问题,提高文档重组率;然后应用must-link和cannot-link两种种子约束定义概率扩缩值,通过对吉布斯采样过程的约束来影响LDA的主题分配,使得训练结果更加合理;最后将种子约束LDA生成的主题映射到先验属性类别上。定性分析(属性类别、属性词)和定量分析(准确率、熵值、纯度)结果表明,文中方法的准确率和纯度均高于现有的比较方法,而熵值低于现有的比较方法,说明了文中方法具有更好的聚类效果。
关键词
属性提取
词频-逆
文档频度
LDA模型
种子约束
重组
属性类别映射
Keywords
attribute extraction
term frequency-inverse document frequency
LDA model
seed constraint
reorganization
attribute category mapping
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
节点频度和语义距离相结合的网页正文信息抽取
孟军
刘秋水
王秀坤
《计算机工程与应用》
CSCD
北大核心
2009
3
在线阅读
下载PDF
职称材料
2
DF还是IDF?主特征模型在Web信息检索中的使用
张敏
马少平
宋睿华
《软件学报》
EI
CSCD
北大核心
2005
13
在线阅读
下载PDF
职称材料
3
基于种子约束LDA的产品属性提取方法
陈可嘉
郑晶晶
《华南理工大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2022
1
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部