期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于逆向匹配的电子商务网站实体模板半自动构建方法
1
作者 傅彦 徐昭邦 +1 位作者 夏虎 周俊临 《中文信息学报》 CSCD 北大核心 2015年第2期157-162,178,共7页
Web页面中的主题信息一般分布比较集中,可利用网页的这一特性进行网页主题信息的自动提取。网页源代码中的HTML标签不规范,使得正向匹配难以生成嵌套结构准确的DOM树,该文提出一种通过逆向匹配的方法,构建完整的网页源代码DOM树。通过对... Web页面中的主题信息一般分布比较集中,可利用网页的这一特性进行网页主题信息的自动提取。网页源代码中的HTML标签不规范,使得正向匹配难以生成嵌套结构准确的DOM树,该文提出一种通过逆向匹配的方法,构建完整的网页源代码DOM树。通过对DOM树进行剪枝,删除无关节点,对保留下来的信息块的节点标签进行人工选择与唯一性判定,从而生成提取模板。该方法能够实现对电子商务网站源网页中的主题信息进行提取,是一种半自动、通用的方法,可用于信息检索系统中的信息采集。 展开更多
关键词 逆向匹配 DOM树 模板构建 信息提取
在线阅读 下载PDF
中文短文本聚合模型研究 被引量:11
2
作者 刘震 陈晶 +2 位作者 郑建宾 华锦芝 肖淋峰 《软件学报》 EI CSCD 北大核心 2017年第10期2674-2692,共19页
中文短文本聚合的目的是将两个数据集中属于同一对象的短文本信息进行匹配关联,同时要避免匹配不属于同一对象的短文本信息,这项研究对于多源异构的短文本数据资源整合具有重要的理论和现实意义.提出了一种有效的中文短文本聚合模型,通... 中文短文本聚合的目的是将两个数据集中属于同一对象的短文本信息进行匹配关联,同时要避免匹配不属于同一对象的短文本信息,这项研究对于多源异构的短文本数据资源整合具有重要的理论和现实意义.提出了一种有效的中文短文本聚合模型,通过快速匹配和精细匹配两个关键步骤可以大幅度降低匹配的候选对数量,并保证匹配的精度.针对传统短文本相似度算法的不足,提出了一种新颖的广义Jaro-Winkler相似度算法,并从理论上分析了该算法的参数特性.通过对不同数据集上的商户信息数据进行聚合实验,结果表明,新算法与传统算法相比,在匹配准确率和稳定性上具有最优的性能. 展开更多
关键词 中文短文本 聚合模型 文本相似度 广义Jaro—Winkler算法 快速匹配 精细匹配
在线阅读 下载PDF
基于前景提取的复杂背景图像检索算法 被引量:1
3
作者 冯喆 夏虎 +1 位作者 傅彦 周俊临 《计算机科学》 CSCD 北大核心 2013年第12期113-115,126,共4页
基于内容的图像检索提供给使用者一种更直观、更精准的检索方式。用户在进行此类检索时,往往更关注图像的主体部分。为了消除背景信息对检索效果的影响,提出一种基于前景提取的复杂背景图像检索算法。实验证明,在H-S颜色直方图、LBP纹... 基于内容的图像检索提供给使用者一种更直观、更精准的检索方式。用户在进行此类检索时,往往更关注图像的主体部分。为了消除背景信息对检索效果的影响,提出一种基于前景提取的复杂背景图像检索算法。实验证明,在H-S颜色直方图、LBP纹理特征以及颜色纹理混合特征上,该算法可以得到较优化的性能。 展开更多
关键词 前景提取 图像检索 颜色直方图 纹理特征
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部