期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
Web表格中本体实例自动获取方法 被引量:2
1
作者 车成逸 马宗民 焦晓龙 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2012年第3期332-335,共4页
当前许多领域信息都采用表格形式展现,因此,如何从表格中抽取本体逐渐引起了人们的关注.为了提高从Web表格中抽取本体实例的准确性,提出了基于语义相似度的词汇语义类的获取方法.该方法采用了基于SVM的语义相似度计算方法,提高了判断语... 当前许多领域信息都采用表格形式展现,因此,如何从表格中抽取本体逐渐引起了人们的关注.为了提高从Web表格中抽取本体实例的准确性,提出了基于语义相似度的词汇语义类的获取方法.该方法采用了基于SVM的语义相似度计算方法,提高了判断语义相似度的准确性,克服了以前依靠句法相似度分析表格结构存在的局限性.最后,根据实验结果,对该方法的性能进行评估.实验结果显示,该方法可以有效地从Web表格中抽取本体实例. 展开更多
关键词 web表格 本体实例 语义相似度 交互信息量 支持向量机
在线阅读 下载PDF
Web表格的实体列发现算法 被引量:1
2
作者 张丽方 王宁 齐飞 《计算机工程》 CAS CSCD 北大核心 2017年第12期165-172,共8页
针对机器无法理解Web表格语义信息的问题,传统的实体列发现方法通常依靠表头信息和知识库发现实体列,不适用于没有表头的Web表格。为此,提出一种基于列值间近似依赖关系和规范化的Web表格实体列发现算法,对无表头或者无法恢复出完整表... 针对机器无法理解Web表格语义信息的问题,传统的实体列发现方法通常依靠表头信息和知识库发现实体列,不适用于没有表头的Web表格。为此,提出一种基于列值间近似依赖关系和规范化的Web表格实体列发现算法,对无表头或者无法恢复出完整表头的表格甚至多实体列表格进行实体列标注。由Web表格中的属性值探测出Web表格属性间内在的近似函数依赖关系,根据Web表格的特点对噪声函数依赖进行删减,通过函数依赖集进行规范化,得到Web表格的实体列。与利用知识库进行实体列探测的算法相比,该算法不依赖表头信息,召回率和精确度均提高了3%~5%,适用性更强。 展开更多
关键词 web表格 实体列 近似函数依赖 语义恢复 规范化
在线阅读 下载PDF
基于等价压缩快速聚类的Web表格知识抽取 被引量:1
3
作者 吴小龙 曹存根 《中文信息学报》 CSCD 北大核心 2019年第4期75-84,共10页
Web表格知识抽取是一种重要的获取高质量知识的途径,在知识图谱、网页挖掘等方面具有广泛的研究意义与应用价值。传统的Web表格知识抽取方法主要依赖于良好的表格结构和足够的先验知识,但在复杂的表格结构以及先验知识不足等情形下难以... Web表格知识抽取是一种重要的获取高质量知识的途径,在知识图谱、网页挖掘等方面具有广泛的研究意义与应用价值。传统的Web表格知识抽取方法主要依赖于良好的表格结构和足够的先验知识,但在复杂的表格结构以及先验知识不足等情形下难以奏效。针对这类方法的问题,该文通过充分利用表格自身的结构特点,提出了一套可面向大规模数据的基于等价压缩快速聚类的Web表格知识抽取方法,以无监督的聚类方式获得相似形式结构的表格,从而推测其语义结构以抽取知识。实验结果表明,基于等价压缩的快速聚类算法在保持同水平的聚类准确率的前提下,在时间性能上相比传统方法有大幅度的提升,5 000个表格的聚类时间由72小时缩短为20分钟,且在表格聚类后利用表格模板所抽取的知识三元组的准确率也达到了令人满意的结果。 展开更多
关键词 web表格 知识抽取 表格聚类 等价压缩 快速聚类
在线阅读 下载PDF
基于图模型的Web表格中视觉并列关系的研究
4
作者 李雯琴 谢志鹏 《小型微型计算机系统》 CSCD 北大核心 2014年第7期1567-1572,共6页
Web不仅包含海量文本信息,还包含大量表格数据.与自由格式的文本信息相比,Web表格所包含的信息更为精练并且结构化,便于数据挖掘.Web表格挖掘已成为一个热点研究问题.为挖掘Web表格的行列结构、背景、颜色、文本字体、字号等视觉信息所... Web不仅包含海量文本信息,还包含大量表格数据.与自由格式的文本信息相比,Web表格所包含的信息更为精练并且结构化,便于数据挖掘.Web表格挖掘已成为一个热点研究问题.为挖掘Web表格的行列结构、背景、颜色、文本字体、字号等视觉信息所蕴含的语义,一种图结构模型以及构造方法被提出.基于图模型,Web表格的视觉并列关系被形式化定义.一种自动抽取Web表格的视觉并列关系的算法被提出.实验表明所提取的视觉并列关系与语义相似度之间存在着显著的正相关性,Web表格视觉并列关系的提取将有助于其他语义分析工作. 展开更多
关键词 web表格挖掘 视觉要素 图模型 视觉并列关系
在线阅读 下载PDF
表格信息抽取引擎的设计与实现 被引量:4
5
作者 王治和 《计算机科学》 CSCD 北大核心 2006年第10期126-127,175,共3页
讨论针对Web表格的信息抽取,分析并给出了表格信息抽取引擎的系统结构,以及实现该系统所涉及的关键技术和数据模型,为用户提供一种以Web表格为信息抽取对象的、支持抽取方式选择的Web表格信息抽取工具。
关键词 web表格 数据挖掘 信息抽取 二叉树模型
在线阅读 下载PDF
基于结构化信息源的本体构建方法综述 被引量:11
6
作者 车成逸 马宗民 焦晓龙 《计算机应用研究》 CSCD 北大核心 2012年第7期2406-2410,共5页
作为一种能够在语义层和知识层上描述信息系统的概念建模工具,本体在许多领域得到了广泛应用。由于本体的构建和维护工作费时费力,本体的构建方法研究成为了实现语义Web应用的最重要技术。综述了从不同的结构化信息源(数据库、XML文档以... 作为一种能够在语义层和知识层上描述信息系统的概念建模工具,本体在许多领域得到了广泛应用。由于本体的构建和维护工作费时费力,本体的构建方法研究成为了实现语义Web应用的最重要技术。综述了从不同的结构化信息源(数据库、XML文档以及Web表格)构建本体的方法,进行了详细分析与对比,并给出其存在的不足之处以及未来可能的研究方向。 展开更多
关键词 本体构建 结构化信息源 数据库 XML文档 web表格
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部