期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
Deep Web数据采集查询构造方法研究 被引量:2
1
作者 林海伦 杨晓刚 +3 位作者 熊锦华 王元卓 贾岩涛 程学旗 《计算机科学与探索》 CSCD 北大核心 2015年第9期1025-1033,共9页
网络大数据的大规模、多源异构、动态更新、高噪声给知识的获取带来了很大的挑战。特别地,很多网站隐藏在HTML表单后端的Web数据库中的Deep Web数据,只能通过提交表单查询的方式进行动态访问,网络爬虫难以通过页面之间的链接关系采集到... 网络大数据的大规模、多源异构、动态更新、高噪声给知识的获取带来了很大的挑战。特别地,很多网站隐藏在HTML表单后端的Web数据库中的Deep Web数据,只能通过提交表单查询的方式进行动态访问,网络爬虫难以通过页面之间的链接关系采集到这些数据,影响了获取到的知识资源的覆盖率,如何高效地采集这些数据并加以利用非常具有挑战性。为此对现有的Deep Web数据采集的查询构造方法进行了详细分析,分别介绍了针对不同类型的表单对应的Deep Web数据采集查询构造方法;总结了现有表层化方式的Deep Web数据采集查询构造方法的优缺点,并对Deep Web数据采集查询构造方法的未来工作进行了展望,以推动Deep Web数据采集技术的进一步发展。 展开更多
关键词 DEEP WEB 查询接口 查询构造 网络爬虫
在线阅读 下载PDF
基于本体推理的终端用户数据查询构造方法 被引量:5
2
作者 唐爽 王亚沙 +2 位作者 赵俊峰 王江涛 夏丁 《软件学报》 EI CSCD 北大核心 2019年第5期1532-1546,共15页
基于数据分析的智能决策对提升企业竞争力具有重要意义.根据待分析的问题,从内部信息系统的数据库中查询并获取与问题密切相关且信息完整的数据,是企业数据分析过程中的关键环节.基于本体的可视化数据查询系统为不掌握计算机专业技能的... 基于数据分析的智能决策对提升企业竞争力具有重要意义.根据待分析的问题,从内部信息系统的数据库中查询并获取与问题密切相关且信息完整的数据,是企业数据分析过程中的关键环节.基于本体的可视化数据查询系统为不掌握计算机专业技能的终端用户提供了高效获取数据的手段,近年来成为研究热点.然而现有工作仅采用简单的映射规则,将数据库中的表、字段、外键关系等元素直接映射为本体中的概念、属性和关系,向终端用户暴露了过多数据库设计的技术细节,增加了用户理解的难度,降低了系统的可用性.而通过人工编写映射规则来屏蔽数据库细节,既低效又缺乏通用性.针对这一问题,提出了一种基于推理的终端用户本体查询构造方法.该方法利用本体模型的语义表达能力和推理能力,在原有基于数据库简单映射所生成的本体模型基础上注入领域知识,从而优化查询构造流程,使终端用户得以从其更为熟悉的业务知识的视角,而非数据库设计的视角来看待和操纵数据,提高系统可用性;同时,增加了对分组统计的支持,扩展了方法的适用范围.最后,通过对"餐饮前台信息管理"领域真实案例的分析,验证了该方法相对于已有方法,其可用性提高了53.44%,表达能力提高了20.43%. 展开更多
关键词 终端用户数据访问 基于本体的数据访问 可视化查询构造 可视化查询系统
在线阅读 下载PDF
从Web获取部分整体关系语料的方法 被引量:4
3
作者 曹馨宇 曹存根 《中文信息学报》 CSCD 北大核心 2011年第5期17-23,共7页
部分整体关系获取是知识获取中的重要组成部分。Web逐步成为知识获取的重要资源之一。搜索引擎是从Web中获取部分整体关系知识的有效手段之一,我们将Web中包含部分整体关系的检索结果集合称为部分整体关系语料。由于目前主流搜索引擎尚... 部分整体关系获取是知识获取中的重要组成部分。Web逐步成为知识获取的重要资源之一。搜索引擎是从Web中获取部分整体关系知识的有效手段之一,我们将Web中包含部分整体关系的检索结果集合称为部分整体关系语料。由于目前主流搜索引擎尚不支持语义搜索,如何构造有效的查询以得到富含部分整体关系的语料,从而进一步获取部分整体关系,就成为一个重要的问题。该文提出了一种新的查询构造方法,目的在于从Web中获取部分整体关系语料。该方法能够构造基于语境词的查询,进而利用现有的搜索引擎从Web中获取部分整体关系语料。该方法在两个方面与人工构造查询方法和基于语料库查询构造查询方法所获取的语料进行对比,其一是语料中含有部分整体关系的语句数量;二是从语料中进一步获取部分整体关系的难易程度。实验结果表明,该方法远远优于后两者。 展开更多
关键词 部分整体关系获取 语料获取 查询构造
在线阅读 下载PDF
2005年863信息检索评测哈尔滨工业大学信息检索研究室技术报告
4
作者 张志昌 张宇 +4 位作者 高立琦 袁新成 胡晓光 刘挺 李生 《中文信息学报》 CSCD 北大核心 2006年第B03期83-90,共8页
首先用向量空间模型工具Lucene从全部网页正文信息中检索,再用语言模型工具Lemur对结果集进行重排序,然后将两次的结果进行融合,远回融合结果的前1000篇文档作为最终结果集。构造查询输入时,从主题的〈title〉字段和〈dese〉字段选... 首先用向量空间模型工具Lucene从全部网页正文信息中检索,再用语言模型工具Lemur对结果集进行重排序,然后将两次的结果进行融合,远回融合结果的前1000篇文档作为最终结果集。构造查询输入时,从主题的〈title〉字段和〈dese〉字段选择关键词,并依据tf*idf的思想对关键词赋予权值。时正式评测的50个主题集检索,获得的三项评价指标为:程序自动构造查询时,MAP=0.3107,P@10=0.624,R-Preeision=0.3672;人工构造查询时,MAP=0.3538,P@10=0.684,R-Preelsion=0.4078。 展开更多
关键词 查询构造 向量空间模型 语言模型 结果融合
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部