-
题名基于逆向匹配的电子商务网站实体模板半自动构建方法
- 1
-
-
作者
傅彦
徐昭邦
夏虎
周俊临
-
机构
电子科技大学计算机科学与工程学院互联网科学中心
-
出处
《中文信息学报》
CSCD
北大核心
2015年第2期157-162,178,共7页
-
基金
国家自然科学基金(61103109
11105024
+9 种基金
61003231)
中央高校基本科研业务费(ZYGX2011J057
ZYGX2012J071
ZYGX2012J085)
四川省科技项目(2010HH0002
2011GZ0106
20112Z0001
2012RZ0002
2012RZ0003)
高等学校博士学科点专项科研基金(20120185120017)
-
文摘
Web页面中的主题信息一般分布比较集中,可利用网页的这一特性进行网页主题信息的自动提取。网页源代码中的HTML标签不规范,使得正向匹配难以生成嵌套结构准确的DOM树,该文提出一种通过逆向匹配的方法,构建完整的网页源代码DOM树。通过对DOM树进行剪枝,删除无关节点,对保留下来的信息块的节点标签进行人工选择与唯一性判定,从而生成提取模板。该方法能够实现对电子商务网站源网页中的主题信息进行提取,是一种半自动、通用的方法,可用于信息检索系统中的信息采集。
-
关键词
逆向匹配
DOM树
模板构建
信息提取
-
Keywords
reverse matching
DOM trees template extraction
information extraction
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名中文短文本聚合模型研究
被引量:11
- 2
-
-
作者
刘震
陈晶
郑建宾
华锦芝
肖淋峰
-
机构
电子科技大学计算机科学与工程学院互联网科学中心
电子科技大学大数据研究中心
中国银联股份有限公司电子支付研究院
-
出处
《软件学报》
EI
CSCD
北大核心
2017年第10期2674-2692,共19页
-
基金
国家自然科学基金(61300018)
中国银联-电子科技大学-金融大数据研究项目~~
-
文摘
中文短文本聚合的目的是将两个数据集中属于同一对象的短文本信息进行匹配关联,同时要避免匹配不属于同一对象的短文本信息,这项研究对于多源异构的短文本数据资源整合具有重要的理论和现实意义.提出了一种有效的中文短文本聚合模型,通过快速匹配和精细匹配两个关键步骤可以大幅度降低匹配的候选对数量,并保证匹配的精度.针对传统短文本相似度算法的不足,提出了一种新颖的广义Jaro-Winkler相似度算法,并从理论上分析了该算法的参数特性.通过对不同数据集上的商户信息数据进行聚合实验,结果表明,新算法与传统算法相比,在匹配准确率和稳定性上具有最优的性能.
-
关键词
中文短文本
聚合模型
文本相似度
广义Jaro—Winkler算法
快速匹配
精细匹配
-
Keywords
Chinese short text
aggregation model
similarity of text
generalized Jaro-Winkler
fast matching
refined matching
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于前景提取的复杂背景图像检索算法
被引量:1
- 3
-
-
作者
冯喆
夏虎
傅彦
周俊临
-
机构
电子科技大学计算机科学与工程学院互联网科学中心
-
出处
《计算机科学》
CSCD
北大核心
2013年第12期113-115,126,共4页
-
基金
国家自然科学基金(61103109
11105024
+8 种基金
61003231)
中央高校基本科研业务费(ZYGX2011J057
ZYGX2012J071
ZYGX2012J085)
四川省科技项目(2010HH0002
2011GZ0106
20112Z0001
2012RZ0002
2012RZ0003)资助
-
文摘
基于内容的图像检索提供给使用者一种更直观、更精准的检索方式。用户在进行此类检索时,往往更关注图像的主体部分。为了消除背景信息对检索效果的影响,提出一种基于前景提取的复杂背景图像检索算法。实验证明,在H-S颜色直方图、LBP纹理特征以及颜色纹理混合特征上,该算法可以得到较优化的性能。
-
关键词
前景提取
图像检索
颜色直方图
纹理特征
-
Keywords
Foreground extraction, Image retrieval, Color histogram, Texture features
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-