期刊文献+
共找到196篇文章
< 1 2 10 >
每页显示 20 50 100
面向军事领域知识问答系统的多策略检索增强生成方法 被引量:4
1
作者 张艳萍 陈梅芳 +4 位作者 田昌海 易子博 胡文鹏 罗威 罗准辰 《计算机应用》 北大核心 2025年第3期746-754,共9页
基于检索增强生成(RAG)的军事领域知识问答系统已经逐渐成为现代情报人员收集和分析情报的重要工具。针对目前RAG方法的应用策略中的混合检索存在可移植性不强以及非必要使用查询改写容易诱发语义漂移的问题,提出一种多策略检索增强生成... 基于检索增强生成(RAG)的军事领域知识问答系统已经逐渐成为现代情报人员收集和分析情报的重要工具。针对目前RAG方法的应用策略中的混合检索存在可移植性不强以及非必要使用查询改写容易诱发语义漂移的问题,提出一种多策略检索增强生成(MSRAG)方法。首先,根据用户输入的查询特点自适应地匹配检索模型来召回相关文本;其次,利用文本过滤器提取出能够回答问题的关键文本片段;再次,使用文本过滤器进行内容有效性判断以启动基于同义词拓展的查询改写,并将初始查询与改写后的信息合并输入检索控制器以进行更有针对性的再次检索;最后,合并能够回答问题的关键文本片段和问题,并使用提示工程输入生成答案模型来生成响应返回给用户。实验结果表明,MSRAG方法在军事领域数据集(Military)和Medical数据集的ROUGE-L(Recall-Oriented Understudy for Gisting Evaluation Longest common subsequence)指标上相较于凸线性组合RAG方法分别提高了14.35和5.83个百分点。可见,MSRAG方法具备较强的通用性和可移植性,能够缓解非必要查询改写导致的语义漂移现象,有效帮助大模型生成更准确的答案。 展开更多
关键词 检索增强生成 军事知识问答 信息检索 文本过滤 查询改写
在线阅读 下载PDF
基于Term-Query-URL异构信息网络的查询推荐 被引量:3
2
作者 刘钰峰 李仁发 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2014年第5期106-112,共7页
查询推荐是一种帮助搜索引擎更好的理解用户检索需求的方法.基于查询的上下文片段训练词汇和查询之间的语义关系,同时结合查询和URL的点击图以及查询中的序列行为构建Term Query URL异构信息网络,采用重启动随机游走(Random Walk withR... 查询推荐是一种帮助搜索引擎更好的理解用户检索需求的方法.基于查询的上下文片段训练词汇和查询之间的语义关系,同时结合查询和URL的点击图以及查询中的序列行为构建Term Query URL异构信息网络,采用重启动随机游走(Random Walk withRestart,RWR)进行查询推荐.综合利用语义信息和日志信息,提高了稀疏查询的推荐效果.基于概率语言模型构造查询的词汇向量,可以为新的查询进行查询推荐.在大规模商业搜索引擎查询日志上的实验表明本文方法相比传统的查询推荐方法性能提升约为3%~10%. 展开更多
关键词 信息检索 查询推荐 点击日志 重启动随机游走
在线阅读 下载PDF
基于对齐查询的跨语言信息检索方法
3
作者 李俊文 宋雨秋 +3 位作者 张维彦 阮彤 刘井平 朱焱 《计算机科学》 北大核心 2025年第8期259-267,共9页
跨语言信息检索是自然语言处理中一项重要的信息获取任务。最近,基于大语言模型的检索方法在这一任务中获得了广泛关注并取得了显著的进展。然而,现有基于提示大语言模型的无监督检索方法在效果和效率上仍有不足。对此,提出了一种全新... 跨语言信息检索是自然语言处理中一项重要的信息获取任务。最近,基于大语言模型的检索方法在这一任务中获得了广泛关注并取得了显著的进展。然而,现有基于提示大语言模型的无监督检索方法在效果和效率上仍有不足。对此,提出了一种全新的基于对齐查询的跨语言信息检索方法。具体而言,采用“预训练-微调”范式,基于预训练多语言模型提出了一种自适应的自指导编码器,通过同一语言内的检索学习指导跨语言检索学习。该方法引入与文档语种相同的语义对齐的查询,并设计了一种自适应的自指导机制,利用不同语种视角下的单语言检索结果的概率分布来指导跨语言检索。在22对语言组合上进行了广泛的实验来评估所提模型的有效性和效率,结果表明,所提方法的MRR指标达到了当前最先进水平。具体而言,其在高资源语种组合上相较于次优基线的平均MRR提高了15.45%,在低资源语种组合上相较于次优基线提高了18.9%。此外,相比基于大语言模型的方法,该方法在训练时间和推理时间上均更短,并且显著提升了收敛性能。相关代码已公开1)。 展开更多
关键词 跨语言信息检索 对齐查询 自指导 自适应层级系数
在线阅读 下载PDF
基于同态加密支持模糊查询的高效隐私信息检索协议
4
作者 严字冬 徐贤 《华东理工大学学报(自然科学版)》 北大核心 2025年第1期89-97,共9页
隐私信息检索技术可以在进行数据检索的同时保护用户查询隐私,然而现有的隐私信息检索协议仍然不够高效,且功能较为薄弱。基于同态加密和数论原理,提出了一种高效的密文匹配机制,并在此之上设计了一个支持模糊查询的无交互对称隐私数据... 隐私信息检索技术可以在进行数据检索的同时保护用户查询隐私,然而现有的隐私信息检索协议仍然不够高效,且功能较为薄弱。基于同态加密和数论原理,提出了一种高效的密文匹配机制,并在此之上设计了一个支持模糊查询的无交互对称隐私数据检索协议,从效率和功能性两个角度着手,显著提升了隐私信息检索的效率,并扩展了协议的功能。在本方案中,对上万条记录进行的单次查询仅需要秒级别的延时,在服务端延时方面优于当下最高效的关键词隐私信息检索方案,并且本方案允许进行带有通配符的模糊查询以及多关键词的查询,可以在保护用户和数据隐私的同时,获得趋近于明文查询的体验。 展开更多
关键词 隐私信息检索 同态加密 密文匹配 模糊查询 云服务
在线阅读 下载PDF
基于知识图谱中多维元路径的科技文档查询扩展
5
作者 徐建民 仝思梦 张国防 《计算机工程与科学》 北大核心 2025年第8期1493-1502,共10页
针对现有科技文档的查询扩展方法存在文档信息利用不充分、文档间关联关系未能有效利用等方面的局限性,提出一种基于知识图谱中多维元路径的科技文档查询扩展方法。首先,对伪相关反馈文档集进行处理得到候选扩展词集;其次,在对科技文档... 针对现有科技文档的查询扩展方法存在文档信息利用不充分、文档间关联关系未能有效利用等方面的局限性,提出一种基于知识图谱中多维元路径的科技文档查询扩展方法。首先,对伪相关反馈文档集进行处理得到候选扩展词集;其次,在对科技文档知识图谱进行分析的基础上,寻找合适的元路径表示用户查询与候选扩展词的关联关系,并基于节点间不同的元路径关联计算用户查询与候选扩展词之间的多维语义相关度;最后,融合多维语义相关度以及候选扩展词在伪相关反馈文档集中的权重选择最终扩展词,实现对用户查询的扩展。实验结果显示,与已有的查询扩展方法相比,基于知识图谱中多维元路径的科技文档查询扩展方法在mAP,DCG和NDCG上分别至少提升了9.21%,10%和11.7%。 展开更多
关键词 知识图谱 查询扩展 多维元路径 科技文档 信息检索
在线阅读 下载PDF
基于用户日志的查询扩展统计模型 被引量:61
6
作者 崔航 文继荣 李敏强 《软件学报》 EI CSCD 北大核心 2003年第9期1593-1599,共7页
信息检索长期存在着用词歧义性问题,在Web搜索上的表现更加突出.提出了一种基于用户查询日志的查询扩展统计模型,将用户查询中使用的词或短语与文档中出现的相应词或短语以条件概率的形式连接,利用贝叶斯公式挑选出文档中与该查询关联... 信息检索长期存在着用词歧义性问题,在Web搜索上的表现更加突出.提出了一种基于用户查询日志的查询扩展统计模型,将用户查询中使用的词或短语与文档中出现的相应词或短语以条件概率的形式连接,利用贝叶斯公式挑选出文档中与该查询关联最紧密的词加入原查询,以达到扩展优化的目的.实验结果表明,该方法更适宜改进Web上的信息检索,相对传统的查询扩展算法可以大幅度提高查询精度. 展开更多
关键词 信息检索 查询扩展 用户日志 日志挖掘
在线阅读 下载PDF
查询扩展技术进展与展望 被引量:53
7
作者 黄名选 严小卫 张师超 《计算机应用与软件》 CSCD 北大核心 2007年第11期1-4,8,共5页
查询扩展技术是改善信息检索中查全率和查准率的关键技术之一,并成为近年来研究的热点。以查询扩展技术的发展为主线,将目前的研究方法归纳为三类:关键词查询扩展技术、查询词权重调整技术和语义概念查询扩展技术。对这三类扩展技术进... 查询扩展技术是改善信息检索中查全率和查准率的关键技术之一,并成为近年来研究的热点。以查询扩展技术的发展为主线,将目前的研究方法归纳为三类:关键词查询扩展技术、查询词权重调整技术和语义概念查询扩展技术。对这三类扩展技术进行了整体性阐述和比较性研究,对一些关键性问题进行了探讨,并展望未来的发展趋势。 展开更多
关键词 查询扩展 信息检索 语义扩展 概念查询
在线阅读 下载PDF
一种基于上下文的中文信息检索查询扩展 被引量:25
8
作者 贺宏朝 何丕廉 +1 位作者 高剑峰 黄昌宁 《中文信息学报》 CSCD 北大核心 2002年第6期32-37,45,共7页
在中文信息检索的研究和实践中 ,由于查询中所使用的词可能与文件集中使用的词不匹配而导致一些相关的文件不能被成功地检索出来 ,这是影响检索效果的一个很关键的问题。查询扩展可以在一定程度上解决这种词的不匹配现象 ,然而 ,实验表... 在中文信息检索的研究和实践中 ,由于查询中所使用的词可能与文件集中使用的词不匹配而导致一些相关的文件不能被成功地检索出来 ,这是影响检索效果的一个很关键的问题。查询扩展可以在一定程度上解决这种词的不匹配现象 ,然而 ,实验表明 ,通常简单的查询扩展并不能稳定地提高中文信息检索的检索效果。本论文中提出并实现了一种基于上下文的查询扩展方法 ,可以根据查询的上下文对扩展词进行选择 ,是一种相对“智能”的查询扩展方法。在TREC - 9中文信息检索测试集上进行的实验表明 ,相对于通常简单的查询扩展 ,基于上下文的查询扩展方法取得了具有统计意义提高的检索效果。 展开更多
关键词 查询扩展 上下文 中文信息检索 测试集 扩展方法 信息检索系统
在线阅读 下载PDF
基于矩阵加权关联规则挖掘的伪相关反馈查询扩展 被引量:70
9
作者 黄名选 严小卫 张师超 《软件学报》 EI CSCD 北大核心 2009年第7期1854-1865,共12页
提出一种面向查询扩展的矩阵加权关联规则挖掘算法,给出与其相关的定理及其证明过程.该算法采用4种剪枝策略,挖掘效率得到极大提高.实验结果表明,其挖掘时间比原来的平均时间减少87.84%.针对现有查询扩展的缺陷,将矩阵加权关联规则挖掘... 提出一种面向查询扩展的矩阵加权关联规则挖掘算法,给出与其相关的定理及其证明过程.该算法采用4种剪枝策略,挖掘效率得到极大提高.实验结果表明,其挖掘时间比原来的平均时间减少87.84%.针对现有查询扩展的缺陷,将矩阵加权关联规则挖掘技术应用于查询扩展,提出新的查询扩展模型和更合理的扩展词权重计算方法.在此基础上提出一种伪相关反馈查询扩展算法——基于矩阵加权关联规则挖掘的伪相关反馈查询扩展算法,该算法能够自动地从前列n篇初检文档中挖掘与原查询相关的矩阵加权关联规则,构建规则库,从中提取与原查询相关的扩展词,实现查询扩展.实验结果表明,该算法的检索性能确实得到了很好的改善.与现有查询扩展算法相比,在相同的查全率水平级下,其平均查准率有了明显的提高. 展开更多
关键词 信息检索 伪相关反馈 查询扩展 关联规则 矩阵加权
在线阅读 下载PDF
基于上下文的查询扩展 被引量:32
10
作者 李卫疆 赵铁军 王宪刚 《计算机研究与发展》 EI CSCD 北大核心 2010年第2期300-304,共5页
针对信息检索查询所使用的词可能与文档集中使用的词不匹配从而影响检索效果这一信息检索关键问题,提出了一种基于上下文的查询扩展方法,该方法根据查询的上下文信息对扩展词进行选择,同时考虑到扩展词与整个查询句以及与查询词的位置关... 针对信息检索查询所使用的词可能与文档集中使用的词不匹配从而影响检索效果这一信息检索关键问题,提出了一种基于上下文的查询扩展方法,该方法根据查询的上下文信息对扩展词进行选择,同时考虑到扩展词与整个查询句以及与查询词的位置关系.在TREC信息检索测试集上进行的实验表明,相对于通常简单的语言模型,方法取得了5%~19%的提高.与流行的基于伪反馈的查询扩展方法相比,提出的方法也具有相当的平均准确率. 展开更多
关键词 信息检索 查询扩展 上下文 语言模型 伪反馈
在线阅读 下载PDF
专利查询扩展的词向量方法研究 被引量:12
11
作者 许侃 林原 +2 位作者 曲忱 徐博 林鸿飞 《计算机科学与探索》 CSCD 北大核心 2018年第6期972-980,共9页
查询扩展技术被广泛地应用于信息检索系统中。为提高专利检索的结果,采用查询扩展方法进行优化,利用相关专利文本训练词向量,并选择与原始查询相似度高的候选词作为查询扩展词,加入原始查询中。提出4种方法运用词向量获取查询扩展词,并... 查询扩展技术被广泛地应用于信息检索系统中。为提高专利检索的结果,采用查询扩展方法进行优化,利用相关专利文本训练词向量,并选择与原始查询相似度高的候选词作为查询扩展词,加入原始查询中。提出4种方法运用词向量获取查询扩展词,并提出两种方法进行扩展词相关性排序,改进已有的查询扩展词选择方法。在TREC数据集上的实验显示,将词向量模型进行扩展词选择的方法与传统的TF-IDF扩展词选择方法相融合,可以有效提高查询扩展模型的性能,对于理解用户的查询意图有着很好的促进作用。 展开更多
关键词 信息检索 查询扩展 排序学习 专利检索
在线阅读 下载PDF
一种基于局部共现的查询扩展方法 被引量:44
12
作者 丁国栋 白硕 王斌 《中文信息学报》 CSCD 北大核心 2006年第3期84-91,共8页
针对信息检索中文档与查询之间的词不匹配问题,本文提出了一种基于局部共现的查询扩展方法LOCOOC。LOCOOC利用词项与所有查询词在局部文档集合中的共现程度来评估扩展词的质量,并整合了词项在语料集中的全局统计信息,使得选取的扩展词... 针对信息检索中文档与查询之间的词不匹配问题,本文提出了一种基于局部共现的查询扩展方法LOCOOC。LOCOOC利用词项与所有查询词在局部文档集合中的共现程度来评估扩展词的质量,并整合了词项在语料集中的全局统计信息,使得选取的扩展词与初始查询所表征的主题或概念具有更好的相关性。实验结果表明:与未进行查询扩展时相比,采用LOCOOC方法进行扩展后,平均准确率提高40%以上;与传统的局部反馈方法以及局部上下文分析方法(LCA,Local ContextAnalysis)相比,LOCOOC不仅具有更优的检索性能,而且有着更好的鲁棒性。 展开更多
关键词 计算机应用 中文信息处理 信息检索 局部共现 查询扩展 LOCOOC
在线阅读 下载PDF
搜索引擎查询推荐技术综述 被引量:29
13
作者 李亚楠 王斌 李锦涛 《中文信息学报》 CSCD 北大核心 2010年第6期75-84,共10页
查询推荐技术,其用于找出与初始查询或关键词相关的其他查询或关键词,被广泛用于搜索引擎和广告检索系统中。作为当今搜索引擎的必备技术之一,查询推荐技术研究正受到越来越多的关注,近几年出现了很多验证查询推荐可用性及改进其算法的... 查询推荐技术,其用于找出与初始查询或关键词相关的其他查询或关键词,被广泛用于搜索引擎和广告检索系统中。作为当今搜索引擎的必备技术之一,查询推荐技术研究正受到越来越多的关注,近几年出现了很多验证查询推荐可用性及改进其算法的研究工作。为此,该文对查询推荐的发展过程、技术方法、评价体系等方面进行了归纳和总结,分析了查询推荐面临的挑战并讨论了现有解决方法及未来研究思路,希望能对相关研究人员有所帮助。 展开更多
关键词 计算机应用 中文信息处理 综述 查询推荐 信息检索
在线阅读 下载PDF
基于本体的智能信息检索系统 被引量:52
14
作者 杨月华 杜军平 平源 《软件学报》 EI CSCD 北大核心 2015年第7期1675-1687,共13页
近年来,基于本体的智能信息检索系统已成为智能信息检索系统领域最为活跃的研究方向之一.如何利用本体进一步提高其检索性能和智能性,成为基于本体的智能信息检索系统的主要研究目标.从面向过程的角度,对近几年基于本体的智能信息检索... 近年来,基于本体的智能信息检索系统已成为智能信息检索系统领域最为活跃的研究方向之一.如何利用本体进一步提高其检索性能和智能性,成为基于本体的智能信息检索系统的主要研究目标.从面向过程的角度,对近几年基于本体的智能信息检索系统的研究进展进行了综述,对其框架、所需本体知识的获取和使用、关键技术、性能评测等进行了前沿概括、比较和分析.最后,对基于本体的智能信息检索系统有待深入研究的难点和热点进行了展望. 展开更多
关键词 本体 智能信息检索系统 框架 语义标注 基于本体的查询处理 综述
在线阅读 下载PDF
面向旅游领域的语义查询扩展方法 被引量:9
15
作者 施雅贤 李璞 +2 位作者 肖宝 韦婷婷 蒋运承 《计算机工程》 CAS CSCD 北大核心 2010年第18期43-45,共3页
针对传统语义查询扩展方法存在返回结果多以及准确率不高的问题,以旅游领域为背景,提出一种语义加权查询扩展方法。利用本体推理能力与本体中的实体相关度进行查询扩展,结合TF-IDF算法的词频加权与语义相关度加权改善检索结果的排序。... 针对传统语义查询扩展方法存在返回结果多以及准确率不高的问题,以旅游领域为背景,提出一种语义加权查询扩展方法。利用本体推理能力与本体中的实体相关度进行查询扩展,结合TF-IDF算法的词频加权与语义相关度加权改善检索结果的排序。实验结果表明,相比其他2种方法,该方法能使更多符合要求的查询结果靠前排列,提高了旅游信息检索的正确率。 展开更多
关键词 语义查询扩展 领域本体 信息检索
在线阅读 下载PDF
一种基于局部分析面向事件的查询扩展方法 被引量:10
16
作者 仲兆满 朱平 +2 位作者 李存华 管燕 刘宗田 《情报学报》 CSSCI 北大核心 2012年第2期151-159,共9页
针对用户获取事件类信息的需求,提出了一种基于局部分析面向事件LA-EO(localanalysis-eventoriented)的查询扩展方法,该方法将查询项区分为事件项和限定项两类分别处理。文章重点讨论了面向事件的查询项分析、事件项的扩展以及查询... 针对用户获取事件类信息的需求,提出了一种基于局部分析面向事件LA-EO(localanalysis-eventoriented)的查询扩展方法,该方法将查询项区分为事件项和限定项两类分别处理。文章重点讨论了面向事件的查询项分析、事件项的扩展以及查询项与文本相似度的计算等问题。围绕突发事件领域,使用搜索引擎和定点采集相结合的方法收集了4011篇文本,设置了10个查询项对本文提出的方法进行了实验比较。结果表明:LA—EO与Rocchio机制(记作LA—Rocchio)和局部上下文分析(记作LA—LCA)扩展方法相比,对事件类信息的检索,LA—EO具有更优的检索性能。 展开更多
关键词 信息检索 查询扩展 局部分析 面向事件 ROCCHIO 局部上下文分析
在线阅读 下载PDF
给互联网建立索引:基于词关系网络的智能查询推荐 被引量:8
17
作者 李亚楠 王斌 +1 位作者 李锦涛 李鹏 《软件学报》 EI CSCD 北大核心 2011年第8期1771-1784,共14页
搜索引擎用户经常提交意图模糊的查询,从而导致搜索失败.为此,提出一种检索交互方式——智能查询推荐,它可以自动辨别查询是否语义明确,并对模糊查询建立体现其不同语义概念的分类目录,这个目录将帮助用户快速定位到合适查询.为了实现... 搜索引擎用户经常提交意图模糊的查询,从而导致搜索失败.为此,提出一种检索交互方式——智能查询推荐,它可以自动辨别查询是否语义明确,并对模糊查询建立体现其不同语义概念的分类目录,这个目录将帮助用户快速定位到合适查询.为了实现智能查询推荐,提出了一种基于自然语言小世界性质的查询语义识别算法——TECH(term concept hunting).TECH综合利用了物理学领域社区发现知识和计算机领域信息检索技术,给出了一种可扩展的算法框架.实验结果表明,与传统查询推荐方式相比,用户更喜欢智能查询推荐;TECH能够有效地辨识模糊查询的不同语义概念,并统计显著优于3个知名的对比系统. 展开更多
关键词 信息检索 查询推荐 小世界网络 社区发现 实验设计
在线阅读 下载PDF
基于区域划分的XML结构连接 被引量:35
18
作者 王静 孟小峰 王珊 《软件学报》 EI CSCD 北大核心 2004年第5期720-729,共10页
结构连接是XML查询处理的核心操作,受到了研究界的关注.高效的算法是高效查询处理的关键.目前已经提出了许多结构连接的算法,它们中的大多数都基于如下的前提条件之一:输入元素集合存在索引或者有序.当这些条件不成立时,由于对输入数据... 结构连接是XML查询处理的核心操作,受到了研究界的关注.高效的算法是高效查询处理的关键.目前已经提出了许多结构连接的算法,它们中的大多数都基于如下的前提条件之一:输入元素集合存在索引或者有序.当这些条件不成立时,由于对输入数据临时排序或建索引的代价,这些算法的性能会大大下降.基于这样的观察,提出了一种基于区域划分的结构连接算法.该算法基于任务分解的思想,利用区域编码的特点对输入集合进行划分.给出了详细的算法设计,并对算法的I/O复杂性进行了分析.大量的实验结果显示,该算法具有良好的性能,在输入数据无序或没有索引的情况下优于现有的排序合并算法,可以为查询计划提供更多的选择. 展开更多
关键词 XML查询处理 路径表达式 编码方法 结构连接
在线阅读 下载PDF
基于不同信息资源专利查询扩展方法的研究 被引量:7
19
作者 许侃 林原 +1 位作者 林鸿飞 徐博 《情报学报》 CSSCI 北大核心 2016年第6期597-604,共8页
近年来查询扩展方法已被证明能有效地提升专利检索的平均性能,而大多数查询扩展方法仅使用实验数据集进行扩展词选择,很少有研究将外部信息源利用于专利检索,提高检索准确率。因此,本文在实验数据集基础上,同时采用一种利用外部资源的... 近年来查询扩展方法已被证明能有效地提升专利检索的平均性能,而大多数查询扩展方法仅使用实验数据集进行扩展词选择,很少有研究将外部信息源利用于专利检索,提高检索准确率。因此,本文在实验数据集基础上,同时采用一种利用外部资源的方法提升专利检索性能。该方法利用谷歌搜索引擎优化查询扩展方法的性能,并采用排序学习方法LambdaMART方法融合不同查询扩展方法,对信息源中的不同文本域进行加权处理,从而提升专利检索性能。在TREC数据集上的实验结果表明,基于本文所采用的信息资源进行查询重构的方法有效地提升了专利检索的性能。 展开更多
关键词 信息检索 查询扩展 排序学习 专利检索
在线阅读 下载PDF
基于标记树对象抽取技术的Hidden Web获取研究 被引量:9
20
作者 宋晖 张岭 +1 位作者 叶允明 马范援 《计算机工程与应用》 CSCD 北大核心 2002年第23期9-12,24,共5页
目前标准的搜索引擎能够检索的仅仅是WorldWideWeb提供的小部分称为可索引的Web信息。大量的HiddenWeb信息(估计容量是可索引Web的500倍)对这些搜索引擎是不可见的。这些信息隐藏在Web页面的搜索表单后面,保存在大型的动态数据库中。该... 目前标准的搜索引擎能够检索的仅仅是WorldWideWeb提供的小部分称为可索引的Web信息。大量的HiddenWeb信息(估计容量是可索引Web的500倍)对这些搜索引擎是不可见的。这些信息隐藏在Web页面的搜索表单后面,保存在大型的动态数据库中。该文提出了一套检索HiddenWeb信息的方法,给出了系统的框架结构,并详细讨论了实现的关键技术。系统采用新的基于标记树的对象抽取(Tag-Tree-basedObjectExtraction)方法自动地从Web页面中抽取HiddenWeb信息,然后在此基础上给出了结构化的HiddenWeb信息查询算法。文章最后对实验结果进行了讨论。 展开更多
关键词 标记树 对象抽取 HiddenWeb 互联网 搜索引擎 信息检索 结构化查询 数据库
在线阅读 下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部