-
题名XML信息检索中最小子树根节点问题的分层算法
被引量:23
- 1
-
-
作者
孔令波
唐世渭
杨冬青
王腾蛟
高军
-
机构
北京大学计算机科学技术系
-
出处
《软件学报》
EI
CSCD
北大核心
2007年第4期919-932,共14页
-
基金
SupportedbytheNationalNaturalScienceFoundationofChinaunderGrantNo.60503037(国家自然科学基金)
theNationalHigh-TechResearchandDevelopmentPlanofChinaunderGrantNo.2005AA4Z307(国家高技术研究发展计划(863))
theBeijingNaturalScienceFoundationofChinaunderGrantNo.4062018(北京市自然科学基金)
-
文摘
最小子树根节点问题(smallest lowest common ancestor,简称SLCA)是实现XML信息检索研究中关键字查询的一个基本问题,其主旨就是求解所有包含给定关键字的紧致子树的根节点.XU等人给出了3种算法—基于索引的搜索算法(indexed lookup eager,简称ILE)、基于堆栈的算法以及基于扫描的算法(scan eager,简称SE),并通过实验证明ILE算法具有最好的表现.与基于B+树索引结构的ILE算法不同,所给出的新算法,称为LISA(layered intersection scan algorithm)方法.该方法基于SLCA节点按“层”分布的规律,采取了逐层求解SLCA节点的思路,即在获取了包含关键字的节点的Dewey码集合后,通过计算对应于不同关键字、不同层次的Dewey码前缀集合的交集,可以得到对应不同层的SLCA节点.与ILE相比,LISA除了只需对应于关键字的节点集合信息以外,不再需要其他复杂的辅助数据结构——全部的信息只是对应不同关键字的Dewey码集合以及排序操作.同时,给出了两种实际的算法:LISAI和LISAII,二者的区别在于是否采用Dewey编码到整数的转换.其中,LISAII更具有满意的性能.
-
关键词
xml索引
DEWEY编码
xml信息检索
关键字查询
SLCA
ILE
-
Keywords
xml index
Dewey code
xml information retrieval
keyword search
SLCA (smallest lowest common ancestor)
ILE (indexed lookup eager)
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于词项扩展的XML信息检索反馈技术
被引量:2
- 2
-
-
作者
温馨
陈群
娄颖
-
机构
西北工业大学计算机学院
河南科技大学电信工程学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2011年第20期36-38,共3页
-
基金
国家"863"计划基金资助重点项目(2009AA1Z134)
国家自然科学基金资助项目(60803043
60720106001)
-
文摘
为提高XML信息检索的查询准确率,提出一种基于词项扩展的XML信息检索反馈技术。利用词项所在节点的语义权重、词项与查询词间的相邻频度、共现程度,评估词项权重并排序,取权重较大的词项对初始检索词进行扩展,给出各因子的计算方法。在Wikipedia2009数据集上的实验结果表明,扩展后的查询准确率较高。
-
关键词
xml信息检索
词项扩展
反馈
语义权重
相邻频度
-
Keywords
xml information retrieval
term expansion
feedback
semantic weights
adjacency frequency
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于四层贝叶斯网络的XML文档信息检索模型
被引量:1
- 3
-
-
作者
章小龙
衡星辰
-
机构
漳州师范学院计算中心
国网信息通信有限公司
-
出处
《计算机应用》
CSCD
北大核心
2009年第10期2791-2795,共5页
-
文摘
提出了一种新的基于贝叶斯网络对XML文档信息进行查询的模型方法。该模型支持针对XML文档信息的结构化查询。基于XML信息查询的特点,利用XML数据集中语词、元素和结构化单元的统计信息对模型的拓扑结构和条件概率进行了学习;结合概率函数的方法,利用模型的概率推理进程对XML文档和结构化查询条件的相关度进行了估算。最后在基于INEX测试集的实验中证明了该方法的有效性和可靠性。
-
关键词
贝叶斯网络
xml信息检索
结构化查询
概率函数
-
Keywords
Bayesian network
xml information retrieval
structured query
probability function
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于Nutch的XML网站全文搜索引擎实现
被引量:5
- 4
-
-
作者
吴敏琦
丁岳伟
-
机构
上海理工大学计算机工程学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2008年第15期95-96,107,共3页
-
文摘
普通搜索引擎的网页抓取程序只能理解常见HTML标签,无法对XML网站的内容做有效解析。该文建立一个包含动态自定义标签的纯XML网站,提出借助XSL样式信息帮助网页抓取程序理解XML网页标签含义的方案,实现了基于Nutch的XML网站全文搜索引擎。
-
关键词
xml信息检索
可扩展样式表语言转换
基于Nutch的搜索引擎
-
Keywords
xml information retrieval
eXtensible Stylesheet Language Transformations(XSLT)
search engine based on Nutch
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于用户相关反馈的带结构语义的XML查询词扩展
被引量:2
- 5
-
-
作者
万常选
鲁远
-
机构
江西财经大学信息管理学院
江西财经大学数据与知识工程江西省高校重点实验室
-
出处
《情报学报》
CSSCI
北大核心
2009年第3期382-388,共7页
-
基金
基金项目:国家社会科学基金(No.07BTQ025),国家自然科学基金(No.60763001),江西省自然科学基金(No.2007GZS0082),江西省教育厅科技重点项目(赣教技字[2006]320号).
-
文摘
在XML文档的信息检索中,检索质量不高的一个主要原因是用户难以提出准确描述其查询意图的查询表达式,而查询扩展技术被认为是可以帮助用户构建符合其查询意图的查询表达式。本文在XML信息检索中提出了基于用户相关反馈的查询扩展技术,在查询扩展中除了考虑词频因素外还充分考虑了XML文档的结构特点对于扩展查询词选取的影响,包括文档中元素的语义权重、元素所在层次和词项与初始查询词间的距离因素对于扩展查询词选取的影响。实验证明本方法是可行的,且能较好地提高检索结果的准确率。
-
关键词
xml信息检索
查询扩展
相关反馈
结构语义
-
Keywords
xml information retrieval, query expansion, relevance feedback, structural semantics
-
分类号
G252
[文化科学—图书馆学]
TP311.132
[自动化与计算机技术—计算机软件与理论]
-
-
题名XML文档处理子系统的设计
被引量:1
- 6
-
-
作者
刘康珍
肖和平
阳国贵
-
机构
国防科技大学计算机学院
-
出处
《计算机应用与软件》
CSCD
北大核心
2008年第6期116-119,共4页
-
文摘
在某大型软件系统中,采用XML来表示多种不同格式的文书和其它信息,能够大大简化系统编程接口和加快信息交流共享。XML文档处理子系统是该大型软件系统的重要组成部分,为其他子系统提供高效存储处理各种信息的统一接口。从XML文档映射模式的相关研究开始,在XML文档处理子系统的设计中提出了一种简单高效的XML文档到关系数据库的映射模式,有效提高了系统处理XML文档的速度。
-
关键词
xml
模式映射
xml信息检索
xml文档更新
-
Keywords
xml Schema mapping xml information retrieval xml document update
-
分类号
TP311.132
[自动化与计算机技术—计算机软件与理论]
TP317.2
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于相关性排序改进的ALCA算法
- 7
-
-
作者
马振华
陈群
-
机构
西北工业大学
-
出处
《科学技术与工程》
2010年第9期2108-2113,共6页
-
基金
863计划课题(2009AA1Z134)
国家自然科学基金(60803043)
NSFC-JST重大国际(地区)合作项目(60720106001)资助
-
文摘
XML已经广泛的应用于多个领域。基于关键字检索的搜索引擎在商业上获得了巨大的成功。基于相关性进行XML信息检索,将相关性高的结果排在靠前的位置,直接关系到检索质量和用户的满意度。现有的ALCA算法效率较高,但未基于相关性对结果进行排序。在该算法的基础上增加相关性排序方法,先按根结点中是否包含关键字将所有结果分成相关性不同的两个等级,然后再分别对两个等级的结果排序。结果片段与用户信息需求的相关性是由其中的元素、属性和文本结点的总贡献决定的。实验结果表明改进后的算法取得了较好的排序有效性。
-
关键词
xml信息检索
关键字查询
用户信息需求
最小共同祖先(Lowest
COMMON
Ancestor
ALCA)
相关性排序
-
Keywords
xml information retrieval keyword based search user information need ALCA relevance oriented sorting
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-