-
题名Web表格的实体列发现算法
被引量:1
- 1
-
-
作者
张丽方
王宁
齐飞
-
机构
北京交通大学计算机与信息技术学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2017年第12期165-172,共8页
-
基金
国家自然科学基金(61370060)
-
文摘
针对机器无法理解Web表格语义信息的问题,传统的实体列发现方法通常依靠表头信息和知识库发现实体列,不适用于没有表头的Web表格。为此,提出一种基于列值间近似依赖关系和规范化的Web表格实体列发现算法,对无表头或者无法恢复出完整表头的表格甚至多实体列表格进行实体列标注。由Web表格中的属性值探测出Web表格属性间内在的近似函数依赖关系,根据Web表格的特点对噪声函数依赖进行删减,通过函数依赖集进行规范化,得到Web表格的实体列。与利用知识库进行实体列探测的算法相比,该算法不依赖表头信息,召回率和精确度均提高了3%~5%,适用性更强。
-
关键词
WEB表格
实体列
近似函数依赖
语义恢复
规范化
-
Keywords
Web table
entity column
approximate functional dependency
semantic recovery
normalization
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名压缩数据上的关系代数操作算法
被引量:2
- 2
-
-
作者
丁鑫哲
张兆功
李建中
谭龙
刘勇
-
机构
黑龙江大学计算机科学技术学院
哈尔滨工业大学计算机科学技术学院
-
出处
《计算机应用》
CSCD
北大核心
2016年第1期21-26,51,共7页
-
基金
国家自然科学基金资助项目(81273649)
黑龙江省自然科学基金资助项目(F201434)~~
-
文摘
针对在大数据管理中,在压缩的数据上无需解压即可进行相关操作的问题,在数据服从正态分布的前提下,根据列数据存储的特点,提出了一种新的面向列存储的压缩方法——CCA。首先,通过对列数据的长度进行归类;然后,采用抽样的方法获得重复度较高的前缀;最后,使用字典编码进行压缩,提出了列索引(CI)和列实体(CR)作为数据压缩结构来降低大数据存储的空间需求,从而直接有效地在压缩数据上支持选择、投影、连接等基本操作,并实现了基于CCA的数据库原型系统——D-DBMS。理论分析和在1 TB数据上的实验结果表明,该压缩算法能够显著提高大数据的存储效率和数据操作性能,与BAP和TIDC压缩方法相比,在压缩率分别提高了51%、14%;在执行速度上提高了47%、42%。
-
关键词
大数据压缩
列索引
列实体
关系代数操作
-
Keywords
massive data compression
Column Index(CI)
Column Reality(CR)
relational algebraic operation
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-