期刊文献+
共找到77篇文章
< 1 2 4 >
每页显示 20 50 100
基于主题的Web信息采集系统的设计与实现 被引量:23
1
作者 李盛韬 赵章界 余智华 《计算机工程》 CAS CSCD 北大核心 2003年第17期102-104,共3页
基于主题的Web信息采集是信息检索领域内一个新兴且有实用价值的方向,也是信息处理技术中的一个研究热点。文章分析了主题Web信息采集的基本问题,提出了难点以及相关的解决方案,并在此基础上设计实现了“天达”主题Web信息采集系统。
关键词 信息采集 信息检索 信息处理 主题采集
在线阅读 下载PDF
基于主题的智能Web信息采集系统的研究与实现 被引量:15
2
作者 李卫 刘建毅 +1 位作者 何华灿 王枞 《计算机应用研究》 CSCD 北大核心 2006年第2期163-166,共4页
研究并实现了一个基于主题的智能信息采集系统IFWC,该系统以全信息理论为支撑,吸收传统向量空间模型的思想,采用基于概念的向量空间模型,从词的语义层次对文本进行主题相关性分析;使用扩展元数据的语义相关性判定算法,对页面内的URL进... 研究并实现了一个基于主题的智能信息采集系统IFWC,该系统以全信息理论为支撑,吸收传统向量空间模型的思想,采用基于概念的向量空间模型,从词的语义层次对文本进行主题相关性分析;使用扩展元数据的语义相关性判定算法,对页面内的URL进行主题相关性预测。实验证明,该系统采集速度快,采集下来的页面精度高。 展开更多
关键词 基于主题信息采集 信息 扩展元数据 概念向量空间模型
在线阅读 下载PDF
Web信息采集中军事主题信息的识别 被引量:2
3
作者 邵晓良 刘红 《情报杂志》 CSSCI 北大核心 2004年第7期14-16,共3页
介绍了解放军第二军医大学网络信息中心设计的军事主题信息采集系统的一项核心工作———军事主题信息的识别。主题识别算法从构造专业性较强的军事主题词典着手 ,充分分析和考虑Web网页文本的特点 ,从而大大提高了军事主题信息采集的... 介绍了解放军第二军医大学网络信息中心设计的军事主题信息采集系统的一项核心工作———军事主题信息的识别。主题识别算法从构造专业性较强的军事主题词典着手 ,充分分析和考虑Web网页文本的特点 ,从而大大提高了军事主题信息采集的效率和精度 ,该算法同样适用于其他领域的主题信息识别。 展开更多
关键词 web信息采集 军事主题信息 信息识别 主题词典 网页文本 分词处理
在线阅读 下载PDF
遗传算法在主题Web信息采集中的应用研究 被引量:5
4
作者 唐志 王成良 《计算机科学》 CSCD 北大核心 2006年第7期71-74,共4页
传统的基于本地搜索算法的信息采集系统存在诸如主题漂移和采集结果局部最优等问题。在深入研究Web拓扑结构基础上,利用网络蜘蛛的在线状态,提出了基于全局信息的、动态综合了链接的立即回报价值和未来回报价值的遗传算法。通过此算法,... 传统的基于本地搜索算法的信息采集系统存在诸如主题漂移和采集结果局部最优等问题。在深入研究Web拓扑结构基础上,利用网络蜘蛛的在线状态,提出了基于全局信息的、动态综合了链接的立即回报价值和未来回报价值的遗传算法。通过此算法,利用元搜索技术可进一步提高网络蜘蛛的性能,具有更高的查全率和查准率,能够较好地解决现存问题。 展开更多
关键词 网络蜘蛛 遗传算法 web社区 信息采集
在线阅读 下载PDF
Web信息采集研究进展 被引量:25
5
作者 李盛韬 余智华 +1 位作者 程学旗 白硕 《计算机科学》 CSCD 北大核心 2003年第2期151-157,171,共8页
As a basic component of search engine and a series of other services on Web,Web crawler is playing an important role. Roughly,a Web crawler is a program which automatically traverses the Web by downloading documents a... As a basic component of search engine and a series of other services on Web,Web crawler is playing an important role. Roughly,a Web crawler is a program which automatically traverses the Web by downloading documents and following links from page to page. This article detailedly explains the principles and difficulties on the Web crawler,comprehensively argues several hot directions of Web crawler,and at last views the new direction of Web crawler. 展开更多
关键词 web 信息采集 信息发布 INTERNET INTRANET 计算机网络
在线阅读 下载PDF
一种通用Web信息采集系统的设计与实现 被引量:11
6
作者 吴丽辉 王斌 余智华 《计算机工程》 EI CAS CSCD 北大核心 2005年第3期123-124,194,共3页
介绍了一种通用的Web信息采集系统,给出了系统总体结构,分析了信息采集器、采集控制服务器和信息发布服务器,讨论了系统实际的应用。实践证明,该系统能够对Internet信息进行自动采集,并对今后的应用提供充分的支持,具有良好的通用性。
关键词 web信息 通用性 采集系统 服务器 信息发布 信息采集 设计 证明 实际 系统总体结构
在线阅读 下载PDF
Web信息采集中的哈希函数比较 被引量:8
7
作者 吴丽辉 白硕 +1 位作者 张刚 张凯 《小型微型计算机系统》 CSCD 北大核心 2006年第4期673-676,共4页
在Web信息采集的过程中,需要判断待采页面是否在已采页面集合中.为了实现快速采集,采用哈希函数来实现.基于一个含有2000多万个URL的序列,通过大规模的实验性评测,比较了函数Tianlhash、ELFhash、HfIp、hf和Strhash的一阶和二阶哈希冲突... 在Web信息采集的过程中,需要判断待采页面是否在已采页面集合中.为了实现快速采集,采用哈希函数来实现.基于一个含有2000多万个URL的序列,通过大规模的实验性评测,比较了函数Tianlhash、ELFhash、HfIp、hf和Strhash的一阶和二阶哈希冲突率.实验结果表明,Strhash和Tianlhash的性能较佳,值得推荐.并且,ELFhash的测试性能要优于HfIp和hf采用二阶哈希后的天罗Web信息采集系统,占用几兆的内存空间,大大提高了采集速度,并降低了数据库的负荷. 展开更多
关键词 web信息采集 哈希函数 URL
在线阅读 下载PDF
基于主题相关度的地理信息Web服务爬虫研究 被引量:12
8
作者 武昊 廖安平 +1 位作者 何超英 侯东阳 《地理与地理信息科学》 CSCD 北大核心 2012年第2期27-30,共4页
针对通用搜索引擎对于地理信息Web服务检索存在的不足,提出了一种基于主题相关度的服务爬虫方法,利用向量空间模型表示主题特征,通过引入特征值权重的计算方法分析页面内容与主题的相关度,过滤与主题无关的页面;并利用改进的PageRank算... 针对通用搜索引擎对于地理信息Web服务检索存在的不足,提出了一种基于主题相关度的服务爬虫方法,利用向量空间模型表示主题特征,通过引入特征值权重的计算方法分析页面内容与主题的相关度,过滤与主题无关的页面;并利用改进的PageRank算法从URL和锚文本两方面分析链接的重要性,优化爬取队列。实验表明,该方法在服务检索效率和抓取能力上都取得了良好的效果。 展开更多
关键词 地理信息web服务 服务检索 爬虫 主题相关度
在线阅读 下载PDF
分布式Web信息采集系统的研究与设计 被引量:10
9
作者 李盛韬 成绫 余智华 《计算机工程与应用》 CSCD 北大核心 2003年第16期162-166,182,共6页
Web信息的急速膨胀,使得Web信息采集面临一个巨大的挑战。针对这一情况,实现了一个分布式Web信息采集系统,以提高一般Web信息采集的能力。文章论述了分布式信息采集的基本原理、分类、难点以及相应的对策,并就该分布式Web信息采集系统... Web信息的急速膨胀,使得Web信息采集面临一个巨大的挑战。针对这一情况,实现了一个分布式Web信息采集系统,以提高一般Web信息采集的能力。文章论述了分布式信息采集的基本原理、分类、难点以及相应的对策,并就该分布式Web信息采集系统进行了仔细的剖析。最后,对分布式Web信息采集的发展作了一个展望。 展开更多
关键词 信息采集 分布式 搜索引擎 信息处理 web
在线阅读 下载PDF
一个个性化的Web信息采集模型 被引量:17
10
作者 吴丽辉 王斌 张刚 《计算机工程》 EI CAS CSCD 北大核心 2005年第22期86-88,共3页
介绍了个性化技术和个性化Web信息的采集技术,重点分析了个性化的Web信息采集模型,包括系统总体结构、用户兴趣的获取、个性化Web信息采集流程、个性化推荐的实现。最后对个性化Web信息采集与搜索引擎作了一个比较,分析了个性化Web信息... 介绍了个性化技术和个性化Web信息的采集技术,重点分析了个性化的Web信息采集模型,包括系统总体结构、用户兴趣的获取、个性化Web信息采集流程、个性化推荐的实现。最后对个性化Web信息采集与搜索引擎作了一个比较,分析了个性化Web信息采集的应用。 展开更多
关键词 个性化 个性化的web信息采集 搜索引擎
在线阅读 下载PDF
基于Web的智能信息采集及处理系统设计与实现 被引量:9
11
作者 张帆 李琳娜 杨炳儒 《计算机工程》 CAS CSCD 北大核心 2007年第18期265-267,共3页
互联网信息日益扩展的同时,如何采集和利用Web信息越来越备受关注。该文设计和实现的基于Web的智能信息采集及处理系统,采用高效的URL去重和基于模版的下载机制,提高了采集Web资源的性能;应用自然语言处理技术,对采集信息做智能分类和摘... 互联网信息日益扩展的同时,如何采集和利用Web信息越来越备受关注。该文设计和实现的基于Web的智能信息采集及处理系统,采用高效的URL去重和基于模版的下载机制,提高了采集Web资源的性能;应用自然语言处理技术,对采集信息做智能分类和摘要,在发布上突出个性化的信息服务。与同类系统相比,智能性、实用性都显示出了明显的优势。 展开更多
关键词 web采集 URL去重 智能信息处理 个性化发布
在线阅读 下载PDF
基于语义分析的主题信息采集系统的设计与实现 被引量:15
12
作者 赵佳鹤 王秀坤 刘亚欣 《计算机应用》 CSCD 北大核心 2007年第2期406-408,共3页
设计并实现了一个基于语义分析的主题信息采集系统(SAFWC),提出一种链接价值预测算法(SPageRank)。该算法从语义的角度出发,结合“知网”,通过对扩展元数据进行主题相关性判定来选择、预测与主题相关的URL。实验结果表明,该系统具有较... 设计并实现了一个基于语义分析的主题信息采集系统(SAFWC),提出一种链接价值预测算法(SPageRank)。该算法从语义的角度出发,结合“知网”,通过对扩展元数据进行主题相关性判定来选择、预测与主题相关的URL。实验结果表明,该系统具有较高的采集效率及精度。 展开更多
关键词 主题信息采集 知网 扩展元数据 搜索策略
在线阅读 下载PDF
基于兴趣模型的WEB信息预测采集过滤方法 被引量:3
13
作者 李振星 徐泽平 +1 位作者 唐卫清 唐荣锡 《计算机工程与应用》 CSCD 北大核心 2003年第5期3-5,16,共4页
Web网上海量信息急速膨胀使得有效定向采集相关信息检索成为网上信息查询一个日益重要的研究方向。该文提出一种基于用户兴趣模型的Web文本信息预测采集过滤方法。这种方法根据正反集文本过滤方法,设计出一种用户兴趣模型,并在对Web站... Web网上海量信息急速膨胀使得有效定向采集相关信息检索成为网上信息查询一个日益重要的研究方向。该文提出一种基于用户兴趣模型的Web文本信息预测采集过滤方法。这种方法根据正反集文本过滤方法,设计出一种用户兴趣模型,并在对Web站点结构进行分析的基础上,通过对网页的相关度的预测来控制信息的采集。在保持定向采集精度的同时,缩短采集时间、减少存储、加快检索,节约了网络资源。 展开更多
关键词 兴趣模型 信息预测采集过滤方法 信息采集 文本过滤 web 网络资源 网页 INTERNET 信息检索
在线阅读 下载PDF
面向主题的Web信息收集系统的设计与实现 被引量:12
14
作者 潘春华 武港山 《小型微型计算机系统》 CSCD 北大核心 2003年第12期2150-2154,共5页
随着互联网信息的持续爆炸性增长 ,通用搜索引擎的信息覆盖率和检索精度都在不断下降 ,发展面向主题信息的专用网络信息检索工具已经成为趋势 .文中提出的面向主题的Web信息收集系统是这类工具的核心部件 .该系统采用文档矢量模型进行... 随着互联网信息的持续爆炸性增长 ,通用搜索引擎的信息覆盖率和检索精度都在不断下降 ,发展面向主题信息的专用网络信息检索工具已经成为趋势 .文中提出的面向主题的Web信息收集系统是这类工具的核心部件 .该系统采用文档矢量模型进行文档相关度计算 ,并结合页面链接的上下文信息过滤页面 ;借鉴并修改了Shark启发式查找算法来查找相关页面 ;可采用多机并行下载提高收集效率 ;并依据站点的重要程度进行动态更新 .在一个面向Internet的计算机教学资源检索的搜索引擎中具体实现了这个Web信息收集系统 ,整个系统在低性能的台式机上就能运行 ,并可获得较高的属于指定主题的页面的收集精度和收集效率 . 展开更多
关键词 web信息收集系统 搜索引擎 信息检索 万维网 WWW 互联网 主题 系统设计
在线阅读 下载PDF
一种增量式并行Web信息采集方法 被引量:5
15
作者 杨天奇 周晔 《计算机工程》 EI CAS CSCD 北大核心 2006年第20期97-99,共3页
提出了一个基于多线程并行的增量式Web信息采集结构模型,并加以实现,该模型以线程并行的方式对Web页面同时采集,实现了全面、高效并且灵活的信息搜集,在系统实现过程中,采取Java语言中最新的特性、独特的URL调度策略保证了各个线程时间... 提出了一个基于多线程并行的增量式Web信息采集结构模型,并加以实现,该模型以线程并行的方式对Web页面同时采集,实现了全面、高效并且灵活的信息搜集,在系统实现过程中,采取Java语言中最新的特性、独特的URL调度策略保证了各个线程时间的下载并行与互不相交,页面分析过程为各个线程源源不断地提供下载源,而指纹判别算法保证了并行采集过程中的同步,有效地去除了冗余。对该系统作了测试,实验证明,该系统能有效地提高信息采集性能。 展开更多
关键词 web 信息采集 搜索引擎 并行
在线阅读 下载PDF
一种基于Web的Internet可视化信息自动采集模型 被引量:2
16
作者 喻占武 李锐 +1 位作者 张丽萍 胡瑞敏 《计算机工程》 CAS CSCD 北大核心 2002年第11期50-51,共2页
介绍一种基于Web的Internet可视化信息自动采集的系统模型,该模型能够对Internet可视化信息进行自动采集、分类,并对信息搜索和浏览提供必要的支持,该模型能从Internet上自动采集可视化信息,对图像和视频的主题进行自动分类,为显... 介绍一种基于Web的Internet可视化信息自动采集的系统模型,该模型能够对Internet可视化信息进行自动采集、分类,并对信息搜索和浏览提供必要的支持,该模型能从Internet上自动采集可视化信息,对图像和视频的主题进行自动分类,为显示查询结果的需要提供接口压缩图像和视频,并支持标准关系数据库查询。给出了模型结构,重点分析讨论了自动采集模型的原理。 展开更多
关键词 web INTERNET 可视化 信息自动采集模型 搜索引擎
在线阅读 下载PDF
基于潜在语义索引的Web信息预测采集过滤方法 被引量:9
17
作者 李振星 陆大珏 +2 位作者 任继成 唐卫清 唐荣锡 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2004年第1期142-147,共6页
Web信息急速膨胀使有效定向采集特定领域信息成为网上信息检索中一个日益重要的研究方向 提出一种基于潜在语义索引的Web信息预测采集过滤方法 在样本文档集潜在语义索引对文档相似计算的基础上 ,构造出用户兴趣模型 ,判断页面相关性... Web信息急速膨胀使有效定向采集特定领域信息成为网上信息检索中一个日益重要的研究方向 提出一种基于潜在语义索引的Web信息预测采集过滤方法 在样本文档集潜在语义索引对文档相似计算的基础上 ,构造出用户兴趣模型 ,判断页面相关性进行文本过滤 通过对Web站点结构分析、对未知网页的相关性预测来控制信息采集过程 在保持定向采集精度的同时 ,缩短采集时间、减少存储、加快检索 。 展开更多
关键词 潜在语义索引 信息采集 web检索系统 网络资源 互联网
在线阅读 下载PDF
一种基于搜索策略的多主题信息采集方法 被引量:3
18
作者 仲兆满 李存华 +1 位作者 刘宗田 管燕 《电子学报》 EI CAS CSCD 北大核心 2014年第12期2352-2358,共7页
本文针对多主题信息采集效率低下的问题,调研了主题规则在内置搜索引擎和通用搜索引擎上搜索结果的差异,提出将主题规则拆分成原子规则的思想,分析了原子规则间的相同、互换、包含三种关系.在原子规则之间关系的基础上,设计了针对内置... 本文针对多主题信息采集效率低下的问题,调研了主题规则在内置搜索引擎和通用搜索引擎上搜索结果的差异,提出将主题规则拆分成原子规则的思想,分析了原子规则间的相同、互换、包含三种关系.在原子规则之间关系的基础上,设计了针对内置搜索和通用搜索不同的原子规则分配策略,这样做一方面提高主题信息采集的准确率,另一方面减少搜索采集的次数.针对原子规则直接搜索结果的准确率不高的问题,提出了基于句群的主题与信息相关性的过滤方法.设置138条主题规则(拆分后的原子规则为8223条),14个内置搜索引擎和4个通用搜索引擎,在单位时间内采集到的信息总条数与采集到的相关信息的条数两个方面进行了实验比较.结果表明,所提方法在信息采集数目及相关信息采集数目方面均具有较好的性能. 展开更多
关键词 主题信息采集 原子规则 内置搜索 通用搜索 相关性计算
在线阅读 下载PDF
Web信息检索中主题精选算法的研究与改进 被引量:3
19
作者 韩亚洪 许卓明 董逸生 《计算机工程与应用》 CSCD 北大核心 2004年第17期174-178,共5页
搜索引擎是目前最主要的Web信息检索工具,然而它的效果还不能令人满意。基于Web链接结构的主题精选算法的链接分析迭代往往会收敛于链接图中与查询主题不太相关的紧密交织区域(TKC),从而导致主题偏移。笔者对经典主题精选算法HITS的分... 搜索引擎是目前最主要的Web信息检索工具,然而它的效果还不能令人满意。基于Web链接结构的主题精选算法的链接分析迭代往往会收敛于链接图中与查询主题不太相关的紧密交织区域(TKC),从而导致主题偏移。笔者对经典主题精选算法HITS的分析表明该算法还有给不同的Web站点规定了不平等的影响权重以及不能满足用户多粒度的信息需求等缺点。文章在分析主题精选算法研究的基础上针对其不足提出了改进算法g-HITSc,实验表明该算法是合理和有效的。 展开更多
关键词 主题精选 HITS 多粒度 链接分析 web信息检索
在线阅读 下载PDF
支持信息采集的标准化Web课件制作管理 被引量:3
20
作者 申瑞民 许彦青 《计算机工程》 CAS CSCD 北大核心 2002年第1期239-241,共3页
论述了技术在远程教育领域中的一个应用——标准化课件的制作与管理,设计开发了一套基于规范的标准化课件制作XMLIMSWeb管理工具,并支持对学生学习信息的自动采集。
关键词 IMS规范 XML 远程教育 标准化web课件 信息采集
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部