题名 基于PATTree的半结构化文本信息抽取范式研究
被引量:2
1
作者
曹进军
机构
天津师范大学图书馆
出处
《情报杂志》
CSSCI
北大核心
2007年第7期55-58,共4页
基金
天津市"十一五"教育规划项目"本科生教学参考信息管理与服务系统"(编号:G173)研究成果
文摘
信息抽取器在信息抽取领域是一个很重要的部分,而抽取器的研制通常要依靠抽取规则来实现。以前是利用使用者的使用模式或记录,找出相关的抽取规则。而利用PAT Tree可以直接从半结构化的Web的资料中,找出抽取规则。
关键词
PAT
tree
半结构 化文本
信息抽取
范式
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于EXN-Tree编码的XML结构连接算法研究
2
作者
李英俊
宗金良
孙志胜
机构
济南大学信息科学与工程学院
山东大学计算机学院
出处
《计算机应用》
CSCD
北大核心
2006年第10期2405-2407,2412,共4页
文摘
提出了EXN-Tree的概念,将XML文档树的节点映射到EXN-Tree,依据EXN-Tree的节点编码生成XML文档树节点数据结构。基于此新型的节点编码结构,就无序无索引节点集和有序有索引节点集两种情况下的XML结构连接算法展开研究,提出了一系列的结构连接算法,解决了无序无索引节点集和有序有索引节点集两种情况下的XML结构连接。分析表明该算法的I/O复杂性优于已有算法,具有良好的性能。
关键词
XML
EXN—tree 编码
结构 连接
Keywords
XML
EXN-tree encoding
structural join
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
题名 基于OEM模型的半结构化数据的模式发现
被引量:5
3
作者
吕橙
魏楚元
张瀚韬
机构
北京建筑工程学院计算机系
出处
《计算机工程与应用》
CSCD
北大核心
2006年第34期162-165,181,共5页
基金
北京市教委科技发展计划资助项目(KM200510016002)。
文摘
随着Web数据和数据集成技术的飞速发展,半结构化数据越来越引起人们的重视。半结构化数据是指那些具有隐含结构或结构不严谨的自描述数据。它不同于传统数据中的模式,它是先有数据后有模式,而且半结构化数据的模式是用于描述数据的结构信息而不是对数据结构进行强制约束。为此,半结构化数据的模式发现就成为知识发现的首要步骤。采用了层次数据的概念,提出了分层事务数据库和“累加变换”的计数原则,并据此提出了基于SHDP-tree树结构的SHDP-mine算法和挖掘出半结构、层次数据的基本模式。最后从理论和实验分析和验证了它的有效性和高效性。
关键词
半结构 化层次数据
OEM模型
分层事务数据库
shdp—tree结构
Keywords
semi-structured hierarchical data
OEM model
hierarchical transaction database
shdp -tree structure
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 有效支持XML结构化连接的索引——CATI
被引量:2
4
作者
于亚新
王国仁
张海宁
李建新
机构
东北大学信息科学与工程学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2007年第1期111-118,共8页
基金
国家自然科学基金项目(60573089)
文摘
结构化连接的效率直接影响着XML查询的性能,目前对XML的结构化连接大多都是基于编码的方法.介绍了一种全新的有效支持XML结构化连接的树索引CATI(compact ancestor tree index).CATI的基本思想是,对于给定的一个祖先后代查询(A-D查询)或Twig查询,遍历XML文档,找出所有的祖先A的实例,用以建立CATI的主干;对于每个A实例,找出它的直接后代D的实例链接在它的后面.因为经典的结构连接算法Stack-Tree算法效率较高且使用较广,因此应用基于CATI的结构连接算法和基于Stack-Tree的结构连接算法就A-D查询和Twig查询做了大量实验.实验结果表明,基于CATI的结构化连接在一般查询情况下性能明显优于基于Stack-Tree的结构化连接.
关键词
XML
结构 化连接
紧凑祖先树索引
祖先后代查询
TWIG查询
Stack—tree
Keywords
XML
structural join
CATI
ancestor-descendant query
twig query
stack-tree
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
题名 两种空间索引结构在供水信息系统中的应用和对比
被引量:7
5
作者
刘荣
周宏军
田为春
机构
东华理工大学地球科学与测绘工程学院
宜兴荆邑测绘有限公司
出处
《东华理工大学学报(自然科学版)》
CAS
2008年第4期369-373,共5页
基金
国家自然科学基金(40401050)
核资源与环境教育部重点实验室资助项目(070704)
江西省数字国土实验室资助项目(DLLJ200804)
文摘
空间索引是空间位置到空间对象的映射关系,当前数据库尤其是地图数据库搜索的关键问题就是速度,而提高搜索速度的核心技术就是空间索引。介绍了几种不同的空间索引技术,探讨了利用格网单元索引和R树索引装封边界的过程。通过实验比较了两种索引技术加载数据库时的搜索时间,得出了有益的结论。并根据实际应用比较各索引技术之间的优劣。
关键词
空间索引
R—tree
格网索引
数据结构
Keywords
spatial index
R-tree
grid Index
data structure
分类号
P208
[天文地球—地图制图学与地理信息工程]
题名 RR_tree:多维索引的关系模式实现新方法
6
作者
于利胜
张倩
王珊
张延松
机构
中国人民大学数据工程与知识工程教育部重点实验室
中国人民大学信息学院
出处
《计算机科学与探索》
CSCD
2010年第3期193-201,共9页
基金
国家高技术研究发展计划(863)No.2009AA01Z149
惠普实验室国际合作项目
+1 种基金
北京市教委产学研合作项目
中国人民大学研究生科学研究基金项目No.08XNG040~~
文摘
为了有效地管理多媒体信息、地理信息及空间数据,提出了多种针对多维数据的索引方法。其中一些索引方法已经在现有的商用数据库系统(DBMS)得以实现,然而学术研究及实际应用中需要更多种的多维乃至高维数据索引方法的支持。有研究提出在关系数据库上利用存储结构、存储过程、触发器来模拟并实现X_tree的多维数据索引功能。在此基础上加以改进,重新设计了模式结构,增加了关键的索引,引入了聚簇存储,以关系模式实现多维索引的创建、插入、查询等操作;并且与现有的商用数据库系统的多维索引Oracle Spatial进行了插入、查询的性能比较。实验结果充分证明这种以关系模式实现多维索引方法的可行性与可用性。
关键词
R_tree 技术
关系模拟
模式结构
RR—tree 技术
Keywords
R_tree
relation simulation
schema structure
RR-tree
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
题名 基于网格索引结构的TNN查询算法
7
作者
孙焕良
田春曼
机构
沈阳建筑大学信息与控制工程学院
出处
《沈阳建筑大学学报(自然科学版)》
CAS
2008年第5期900-903,共4页
基金
辽宁省博士启动基金(20071004)
文摘
目的应用网格索引结构实现TNN查询算法,提高查询效率.方法将首次查询到的TNN路径长设为探测距离,利用它缩小有效查询区域,随着查询的进行,不断更新探测距离,直至终止条件到达查询结束.结果实验表明,在同等条件下,利用网格索引比利用R-tree索引结构进行查询的效率至少高一倍,而且随着目标点个数的增加,优势更加明显.结论运用网格索引并选择合适的网格粒度实现TNN查询优于运用R-tree索引实现的算法.
关键词
TNN算法
R—tree 索引结构
网格索引结构
网格粒度
Keywords
TNN algorithm
R - tree index structure
grid index structure
grid granularity
分类号
TP311.131
[自动化与计算机技术—计算机软件与理论]
题名 一种wandering B+tree问题解决方法
被引量:2
8
作者
杨勇鹏
蒋德钧
机构
中国科学院计算技术研究所
中国科学院大学
出处
《计算机研究与发展》
EI
CSCD
北大核心
2023年第3期539-554,共16页
文摘
为了应对磁盘和固态硬盘随机写和顺序写性能差异较大的问题,文件系统和块存储系统通常采用日志结构(log-structured)技术将随机写转换为顺序写.因此,对于日志结构存储系统数据和元数据的修改都以异地写的方式执行.在日志结构存储系统中,B+tree常被用于管理元数据,这就会导致wandering B+tree问题,即树结点异地更新会导致树结构递归更新.目前,现有工作主要通过分离树结点的逻辑索引和物理地址,并使用额外的数据结构和物理设备空间存放树结点逻辑索引和物理地址的映射,从而避免递归更新树结构.但现有方法既引入额外空间开销,又存在额外物理设备空间非顺序写的问题.提出IBT B+tree,将树结点逻辑索引和物理地址均存放在树结构中.同时,基于IBT B+tree结构引入dirty链表设计,并提出了非递归更新的IBT B+tree下刷算法.IBT B+tree既解决了wandering B+tree问题,又不引入额外的数据结构和物理设备空间,消除了固定物理设备空间的非顺序写.分别实现IBT B+tree和基于F2FS中NAT设计的B+tree,在此基础上设计实现Monty-Dev块存储系统以评价2棵B+tree.实验表明,在HDD和SSD介质上,IBT B+tree在写放大和下刷效率方面均优于NAT B+tree.
关键词
日志结构 存储系统
块存储系统
wandering
B+tree
IBT
B+tree
写放大
Keywords
log-structured storage system
block storage system
wandering B+tree
IBT B+tree
write amplification
分类号
TP391
[自动化与计算机技术—计算机应用技术]