-
题名一种通用Web信息采集系统的设计与实现
被引量:11
- 1
-
-
作者
吴丽辉
王斌
余智华
-
机构
中国科学院计算技术研究所软件研究室
中国科学院研究生院
-
出处
《计算机工程》
EI
CAS
CSCD
北大核心
2005年第3期123-124,194,共3页
-
文摘
介绍了一种通用的Web信息采集系统,给出了系统总体结构,分析了信息采集器、采集控制服务器和信息发布服务器,讨论了系统实际的应用。实践证明,该系统能够对Internet信息进行自动采集,并对今后的应用提供充分的支持,具有良好的通用性。
-
关键词
web信息
通用性
采集系统
服务器
信息发布
信息采集
设计
证明
实际
系统总体结构
-
Keywords
web crawler
information processing
search engine
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名面向Web的信息收集工具的设计与开发
被引量:14
- 2
-
-
作者
潘春华
常敏
武港山
-
机构
南京大学计算机软件新技术国家重点实验室
南京大学计算机科学与技术系
-
出处
《计算机应用研究》
CSCD
北大核心
2002年第6期144-147,共4页
-
基金
国家自然科学基金资助 (6 0 0 730 30 )
国家教育部"现代远程教育关键技术研究重点项目"
富士通研究的资助项目
-
文摘
随着互联网的发展以及网上信息的日益丰富 ,传统的信息处理已经延伸到互联网领域。在对互联网上的信息进行处理时 ,常常要将分布在互联网各处的Web页面下载到本地供进一步处理 ;这便是所讨论的Web页面收集工具的核心功能。该页面收集系统在综合使用Web页面间的链接关系和页面内容的基础上 ,增加了多层次的页面过滤模块 ,可用来收集特定领域内的Web页面 ;同时可采用多机并行收集的方法提高页面收集的效率 ;采用大型数据库存放元收集信息 ,并对收集到的页面进行压缩 ,能够支持海量数据的收集 ;动态更新机制的实施使得下载到本地的页面信息能够得到及时的更新。
-
关键词
web
信息收集工具
设计
页面收集
信息处理
网络爬虫
万维网
INTERNET
-
Keywords
web Page-gathering
information processing
web crawler
World Wide web
-
分类号
TP393.4
[自动化与计算机技术—计算机应用技术]
-
-
题名分布式Web信息采集系统的研究与设计
被引量:10
- 3
-
-
作者
李盛韬
成绫
余智华
-
机构
中国科学院计算技术研究所软件研究室
-
出处
《计算机工程与应用》
CSCD
北大核心
2003年第16期162-166,182,共6页
-
基金
中科院计算所领域前沿青年基金资助(编号:20016280-8)
-
文摘
Web信息的急速膨胀,使得Web信息采集面临一个巨大的挑战。针对这一情况,实现了一个分布式Web信息采集系统,以提高一般Web信息采集的能力。文章论述了分布式信息采集的基本原理、分类、难点以及相应的对策,并就该分布式Web信息采集系统进行了仔细的剖析。最后,对分布式Web信息采集的发展作了一个展望。
-
关键词
信息采集
分布式
搜索引擎
信息处理
web
-
Keywords
web crawler,web gathering,search engine,information processing,web
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名面向主题的Web信息收集系统的设计与实现
被引量:12
- 4
-
-
作者
潘春华
武港山
-
机构
南京大学计算机软件新技术国家重点实验室
南京大学计算机科学与技术系
-
出处
《小型微型计算机系统》
CSCD
北大核心
2003年第12期2150-2154,共5页
-
基金
国家自然科学基金 (60 0 730 30 )资助
国家教育部"现代远程教育关键技术研究重点项目"资助
富士通研究的项目资助
-
文摘
随着互联网信息的持续爆炸性增长 ,通用搜索引擎的信息覆盖率和检索精度都在不断下降 ,发展面向主题信息的专用网络信息检索工具已经成为趋势 .文中提出的面向主题的Web信息收集系统是这类工具的核心部件 .该系统采用文档矢量模型进行文档相关度计算 ,并结合页面链接的上下文信息过滤页面 ;借鉴并修改了Shark启发式查找算法来查找相关页面 ;可采用多机并行下载提高收集效率 ;并依据站点的重要程度进行动态更新 .在一个面向Internet的计算机教学资源检索的搜索引擎中具体实现了这个Web信息收集系统 ,整个系统在低性能的台式机上就能运行 ,并可获得较高的属于指定主题的页面的收集精度和收集效率 .
-
关键词
web信息收集系统
搜索引擎
信息检索
万维网
WWW
互联网
主题
系统设计
-
Keywords
information-gathering
search engine
information retrieval
world wide web
-
分类号
TP393.4
[自动化与计算机技术—计算机应用技术]
-
-
题名Web搜索引擎框架研究
被引量:48
- 5
-
-
作者
张卫丰
徐宝文
-
机构
东南大学计算机科学与工程系
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2000年第3期376-378,共3页
-
文摘
Web搜索引擎是Internet上非常有用的信息检索工具,但是由于目前搜索引擎检索出的信息量庞大,且一个特定的搜索引擎主要包含某一特定领域的信息,这使得用户很难从某一个搜索引擎获得准确的导航信息.文中提出一个新的 Web搜索引擎框架 GSE,井提出了一个适合于 Web信息获取与处理的语言 WIRPL.通过WIRPL可以将多个Web搜索引擎结合起来,为用户提供一个一致、高效、准确的Web搜索引擎.
-
关键词
搜索引擎
INTERNET网
web
信息检索工具
-
Keywords
WWW, Internet search engine, virtual service, web information retrieving and processing language, WIRPL
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
G354.4
[文化科学—情报学]
-
-
题名基于移动爬虫的专用Web信息收集系统的设计
被引量:3
- 6
-
-
作者
潘春华
冯太明
武港山
-
机构
南京大学计算机科学与技术系
-
出处
《计算机工程与应用》
CSCD
北大核心
2003年第36期153-156,共4页
-
基金
国家自然科学基金资助(编号:60073030)
国家教育部"现代远程教育关键技术研究重点项目"资助
富士通研究项目资助
-
文摘
搜索引擎已经成为网上导航的重要工具。为了能够提供强大的搜索能力,搜索引擎对网上可访问文档维持着详尽的索引。创建和维护索引的任务由网络爬虫完成,网络爬虫代表搜索引擎递归地遍历和下载Web页面。Web页面在下载之后,被搜索引擎分析、建索引,然后提供检索服务。文章介绍了一种更加有效的建立Web索引的方法,该方法是基于移动爬虫(MobileCrawler)的。在此提出的爬虫首先被传送到数据所在的站点,在那里任何不需要的数据在传回搜索引擎之前在当地被过滤。这个方法尤其适用于实施所谓的“智能”爬行算法,这些算法根据已访问过的Web页面的内容来决定一条有效的爬行路径。移动爬虫是移动计算和专业搜索引擎两大技术趋势的结合,能够从技术上很好地解决现在通用搜索引擎所面临的问题。
-
关键词
互联网
搜索引擎
web
信息收集系统
设计
移动爬虫
-
Keywords
information-gathering,search engine,Mobile crawler,World Wide web
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名一种增量式并行Web信息采集方法
被引量:5
- 7
-
-
作者
杨天奇
周晔
-
机构
暨南大学计算机科学系
-
出处
《计算机工程》
EI
CAS
CSCD
北大核心
2006年第20期97-99,共3页
-
基金
广东省自然科学基金资助项目(5006102)
-
文摘
提出了一个基于多线程并行的增量式Web信息采集结构模型,并加以实现,该模型以线程并行的方式对Web页面同时采集,实现了全面、高效并且灵活的信息搜集,在系统实现过程中,采取Java语言中最新的特性、独特的URL调度策略保证了各个线程时间的下载并行与互不相交,页面分析过程为各个线程源源不断地提供下载源,而指纹判别算法保证了并行采集过程中的同步,有效地去除了冗余。对该系统作了测试,实验证明,该系统能有效地提高信息采集性能。
-
关键词
web
信息采集
搜索引擎
并行
-
Keywords
web
information gathering
search engine
Parallel
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名一种并行Web信息采集系统模型
被引量:1
- 8
-
-
作者
杨天奇
周晔
-
机构
暨南大学计算机科学系
-
出处
《计算机应用》
CSCD
北大核心
2007年第1期225-227,共3页
-
基金
广东省自然科学基金资助项目(5006102)
-
文摘
根据国内外在信息采集领域的发展以及并行采集技术的研究,提出了一个基于多线程并行的W eb信息采集结构模型,该模型以线程并行的方式对W eb页面同时采集,实现了全面、高效并且灵活的信息搜集。
-
关键词
并行web
信息采集
搜索引擎
-
Keywords
parallel web
information gathering
search engine
-
分类号
N393
[自然科学总论]
-
-
题名基于数据挖掘的Web学习资源数据流处理技术
被引量:2
- 9
-
-
作者
杨柳青
王冲
-
机构
玉林师范学院教育技术中心
桂林电子科技大学商学院
-
出处
《现代电子技术》
2022年第13期62-66,共5页
-
基金
国家自然科学基金项目(72061008)
广西自然科学基金项目:基于Web学习资源多特征融合的联合排序推荐算法研究(2018GXNSFAA294123)
玉林师范学院校级项目:高校集控式录播云系统的构建研究(2018YJKY39)。
-
文摘
为了更好地利用Web学习资源,针对当前Web学习资源流处理技术存在的不足,提出基于数据挖掘的Web学习资源数据流处理技术。首先分析Web学习资源流处理的研究进展,以及引起Web学习资源流处理效果不佳的因素;然后采用广度优先算法搜索网页,采集Web学习资源数据流,并采用贝叶斯网络算法挖掘数据流关联规则,寻找出网页内价值最高的信息,并利用弹性可伸缩机制实现学习资源数据流处理。实验结果表明,数据挖掘技术可以准确发现Web学习资源流的变化点,得到的Web学习资源数据流相关性较高,提高了学习资源数据流回调率,具有更高的实际应用价值。
-
关键词
web学习资源
数据流处理
数据挖掘
网络爬虫
网页搜索
信息寻找
-
Keywords
web learning resource
data flow processing
data mining
web crawler
webpage search
information seeking
-
分类号
TN919-34
[电子电信—通信与信息系统]
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名主题Deep Web爬虫框架研究
被引量:3
- 10
-
-
作者
黄聪会
张水平
胡洋
-
机构
空军工程大学电讯工程学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2010年第5期929-931,935,共4页
-
基金
陕西省自然科学基金项目(2007F43)
-
文摘
为满足用户精确化和个性化获取信息的需要,通过分析Deep Web信息的特点,提出了一个可搜索不同主题Deep Web信息的爬虫框架。针对爬虫框架中Deep Web数据库发现和Deep Web爬虫爬行策略两个难题,分别提出了使用通用搜索引擎以加快发现不同主题的Deep Web数据库和采用常用字最大限度下载Deep Web信息的技术。实验结果表明了该框架采用的技术是可行的。
-
关键词
深网
爬虫
搜索引擎
信息抽取
常用字
-
Keywords
deep web
crawler
search engine
information extraction
commonly used Chinese characters
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名网络学术信息行为理论框架构建与行为过程分析
被引量:15
- 11
-
-
作者
叶凤云
孙建军
汪传雷
-
机构
南京大学信息管理系
安徽大学管理学院
安徽大学商学院
-
出处
《图书情报知识》
CSSCI
北大核心
2011年第5期82-88,共7页
-
基金
2010年度国家社科基金项目"提升知识型员工战略运算能力的网络行为模式研究"(10BTQ019)成果项目之一
-
文摘
本文在系统分析国内外信息行为相关研究的基础上,结合网络学术信息行为的定义及特点,构建出网络学术信息行为理论框架;然后基于框架从学术数据库、Web搜索引擎和专业学术网站三种途径解析网络学术信息查询行为涉及的载体层级和行为过程;最后从而建立二维表,为进一步研究网络学术信息行为提供参考。
-
关键词
网络学术信息行为
学术数据库
web搜索引擎
专业学术网站
理论框架
行为过程
-
Keywords
web academic information behavior Academic database web search engine Professional academic siteTheory framework Behavioral process
-
分类号
G350
[文化科学—情报学]
-
-
题名知识图谱构建技术综述
被引量:1094
- 12
-
-
作者
刘峤
李杨
段宏
刘瑶
秦志光
-
机构
电子科技大学信息与软件工程学院
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2016年第3期582-600,共19页
-
基金
国家"八六三"高技术研究发展计划基金项目(2011AA010706)
国家自然科学基金项目(61133016
+1 种基金
61272527)
教育部-中国移动科研基金项目(MCM20121041)~~
-
文摘
谷歌知识图谱技术近年来引起了广泛关注,由于公开披露的技术资料较少,使人一时难以看清该技术的内涵和价值.从知识图谱的定义和技术架构出发,对构建知识图谱涉及的关键技术进行了自底向上的全面解析.1)对知识图谱的定义和内涵进行了说明,并给出了构建知识图谱的技术框架,按照输入的知识素材的抽象程度将其划分为3个层次:信息抽取层、知识融合层和知识加工层;2)分别对每个层次涉及的关键技术的研究现状进行分类说明,逐步揭示知识图谱技术的奥秘,及其与相关学科领域的关系;3)对知识图谱构建技术当前面临的重大挑战和关键问题进行了总结.
-
关键词
知识图谱
语义网
信息检索
语义搜索引擎
自然语言处理
-
Keywords
knowledge graph
semantic web
information retrieval
semantic search engine
natural language processing
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于大规模日志分析的搜索引擎用户行为分析
被引量:119
- 13
-
-
作者
余慧佳
刘奕群
张敏
茹立云
马少平
-
机构
清华大学智能技术与系统国家重点实验室
搜狗公司研发中心
-
出处
《中文信息学报》
CSCD
北大核心
2007年第1期109-114,共6页
-
基金
国家重点基础研究(973)资助项目(2004CB318108)
国家自然科学基金资助项目(60223004
+3 种基金
60321002
60303005
60503064)
教育部科学技术研究重点资助项目(104236)
-
文摘
用户行为分析是网络信息检索技术得以前进的重要基石,也是能够在商用搜索引擎中发挥重要作用的各种算法的基本出发点之一。为了更好的理解中文搜索用户的检索行为,本文对搜狗搜索引擎在一个月内的近5 000万条查询日志进行了分析。我们从独立查询词分布、同一session内的用户查询习惯及用户是否使用高级检索功能等方面对用户行为进行了分析。分析结论对于改进中文搜索引擎的检索算法和更准确的评测检索效果都有较好的指导意义。
-
关键词
计算机应用
中文信息处理
网络信息检索
搜索引擎
用户行为分析
点击信息分析
-
Keywords
computer application
Chinese information processing
web information retrieval
search engine
user behavior analysis
click through data analysis
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于日志挖掘的搜索引擎用户行为分析
被引量:32
- 14
-
-
作者
岑荣伟
刘奕群
张敏
茹立云
马少平
-
机构
智能技术与系统国家重点实验室清华信息科学与技术国家实验室(筹)清华大学计算机科学与技术系
-
出处
《中文信息学报》
CSCD
北大核心
2010年第3期49-54,共6页
-
基金
国家自然科学基金项目资助(60736044
60903107)
高等学校博士学科点专项科研基金资助(20090002120005)
-
文摘
随着网络搜索用户的大规模增加,网络用户行为分析已成为网络信息检索系统进行架构分析、性能优化和系统维护的重要基石,是网络信息检索和知识挖掘的重要研究领域之一。为更好理解网络用户的搜索行为,该文基于7.56亿条真实网络用户行为日志,对用户行为进行分析和研究。我们主要考察了用户搜索行为中的查询长度、查询修改率、相关搜索点击率、首次/最后一次点击位置分布以及查询内点击数分布等信息。该文还基于不同类型的查询集合,考察用户在不同查询需求下的行为差异性。相关分析结果对搜索引擎算法优化和系统改进等都具有一定的参考意义。
-
关键词
计算机应用
中文信息处理
用户行为分析
搜索引擎
网络信息检索
-
Keywords
computer application
Chinese information processing
user behavior analysis
search engine
web information retrieval
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于词典的搜索引擎系统动态更新模型
被引量:13
- 15
-
-
作者
雷鸣
刘建国
王建勇
陈葆珏
-
机构
北京大学计算机科学技术系
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2000年第10期1265-1270,共6页
-
基金
国家"九五"重点科技攻关项目基金资助!(项目编号 96 -743 -0 1-0 5 -0 1)
-
文摘
基于词汇标注的特征项提取方法是中文信息处理的有效方法 ,但词汇的析取是基于词典的 ,词典的涵盖程度决定了词汇切分的准确率 .因而不断地学习新词汇、动态地维护词典 ,使整个中文信息处理系统具有自适应性和动态性就成了一个关键问题 .以搜索引擎系统为例 ,提出了一种基于词典动态变化的搜索引擎系统更新理论模型和实现模型 .相关实验表明 ,该模型对缩短搜索引擎信息库的更新时间。
-
关键词
万维网
词典
搜索引擎系统
中文信息处理
-
Keywords
search engine, natural language processing, Chinese information processing, World Wide web
-
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
-
-
题名农产品价格主题搜索引擎的研究与实现
被引量:6
- 16
-
-
作者
孟繁疆
姬祥
袁琦
刘东
侯哲鹏
-
机构
东北农业大学电气与信息学院
-
出处
《东北农业大学学报》
CAS
CSCD
北大核心
2016年第9期64-71,共8页
-
基金
国家星火计划项目(2010GA670006)
-
文摘
当前农业垂直搜索引擎无法预测农产品价格趋势,难以满足农业生产者行情分析需要。文章设计农产品价格主题搜索引擎。首先网络爬虫从农业综合网站搜集网页,对网页进行转码、去重、提取内容等处理;使用主题相关度算法计算网页的主题相关度,用分类器对网页分类,将与主题相关的网页解析、存储;最后提取农产品价格及其影响因素信息。结果表明,系统可搜集农产品价格信息及影响农产品价格因素信息,为后续农产品价格预测提供数据支持。
-
关键词
网络爬虫
信息抓取
农产品价格
农业搜索引擎
-
Keywords
web crawler
information crawl
agricultural prices prediction
agriculture search engine
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名分布式WWW信息收集技术
被引量:14
- 17
-
-
作者
阳小华
-
机构
中南工学院计算机科学系
-
出处
《计算机工程与应用》
CSCD
北大核心
2000年第5期145-146,169,共3页
-
文摘
讨论了 WWW搜索引擎的分布式信息收集技术,提出了最佳机器人作用范围划分的概念,给出了实用的信息收集代价估算方法和实现最佳机器人作用范围划分的具体算法。
-
关键词
搜索引擎
分布式信息收集
WWW
信息查询系统
-
Keywords
World Wide web
search engine
Distributed information gathering
-
分类号
G354.1
[文化科学—情报学]
TP393.092
[自动化与计算机技术—计算机应用技术]
-
-
题名基于最大频繁项集的搜索引擎查询结果聚类算法
被引量:5
- 18
-
-
作者
苏冲
陈清才
王晓龙
孟宪军
-
机构
哈尔滨工业大学深圳研究生院智能计算研究中心
-
出处
《中文信息学报》
CSCD
北大核心
2010年第2期58-67,共10页
-
基金
863专题目标导向类资助项目(2006AA01Z197)
国家自然科学基金资助项目(60703015)
-
文摘
现有的搜索引擎查询结果聚类算法大多针对用户查询生成的网页摘要进行聚类,由于网页摘要篇幅较短,质量良莠不齐,聚类效果难以有较大的提高(比如后缀树算法,Lingo算法);而传统的基于全文的聚类算法运算复杂度较高,且难以生成高质量的类别标签,无法满足在线聚类的需求(比如KMeans算法)。该文提出一种基于全文最大频繁项集的网页在线聚类算法MFIC(Maximal Frequent Itemset Clustering)。算法首先基于全文挖掘最大频繁项集,然后依据网页集合之间最大频繁项集的共享关系进行聚类,最后依据类别包含的频繁项生成类别标签。实验结果表明MFIC算法降低了基于网页全文聚类的时间,聚类精度提高15%左右,且能生成可读性较好的类别标签。
-
关键词
计算机应用
中文信息处理
搜索引擎
网页聚类
频繁项集
-
Keywords
computer application
Chinese information processing
search engine
web page clustering
frequent itemset
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名大豆垂直搜索引擎的研究与设计
被引量:2
- 19
-
-
作者
刘相琴
孟繁疆
-
机构
东北农业大学
-
出处
《农机化研究》
北大核心
2013年第5期200-203,共4页
-
基金
国家星火计划项目(2010GA670006)
黑龙江省科技攻关项目(GC10B501)
-
文摘
随着互联网技术的发展,搜索引擎的垂直化得到了广泛的研究和应用。为此,以用户对大豆领域相关信息的需求为研究背景,在已有垂直搜索引擎的理念和技术基础上,对大豆垂直搜索引擎进行了研究和设计。同时,提出了大豆垂直搜索引擎的体系结构,并对网页信息采集、索引和管理与审核模块进行了详细的分析和设计,最终为系统的实现提供了解决方案和理论基础。
-
关键词
垂直搜索引擎
大豆
网络蜘蛛
信息采集
-
Keywords
vertical search engine
soybean
web spider
information gathering
-
分类号
TP273.5
[自动化与计算机技术—检测技术与自动化装置]
-