-
题名分布式搜索引擎系统效能建模与评价
被引量:6
- 1
-
-
作者
张伟哲
张宏莉
许笑
何慧
-
机构
哈尔滨工业大学计算机科学与技术学院
-
出处
《软件学报》
EI
CSCD
北大核心
2012年第2期253-265,共13页
-
基金
国家自然科学基金(61173145)
国家重点基础研究发展计划(973)(G2011CB302605)
+1 种基金
国家高技术研究发展计划(863)(2010AA012504
2011AA010705)
-
文摘
针对分布式搜索引擎系统效能建模与评估问题,通过对当前分布式搜索引擎系统的建模与分类,扩展了能耗与网络开销的成本模型;对5种构建搜索引擎系统的设计方案,从系统成本、系统规模和查询响应时间等角度进行了详尽的理论分析与评价.由此发现,由广域网分布式采集系统和多机群索引系统组成的半广域网搜索引擎系统相对于其他系统具有相对较高的效能,同时能够较好地兼顾用户的服务质量.
-
关键词
分布式搜索引擎
效能建模
分布式采集
分布式索引
半广域网搜索引擎
-
Keywords
distributed search engine
productivity modeling
distributed crawling
distributed indexing
half- WAN-based search engine
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于Solr的分布式实时搜索模型研究与实现
被引量:12
- 2
-
-
作者
傅巍玮
李仁发
刘钰峰
黄松立
-
机构
湖南大学嵌入式系统及网络实验室
淘宝(中国)有限责任公司
-
出处
《电信科学》
北大核心
2011年第11期51-56,共6页
-
基金
国家自然科学基金资助项目(No.60873074)
国家工业和信息化部核高基金资助项目(No.2009ZX01038-001)
-
文摘
实时搜索已成为信息检索领域的热点问题之一。传统搜索引擎在分布式环境下无法保证大数据量、高并发情况下的实时响应和数据容灾。本文提出了一种基于Solr的分布式实时搜索模型,分析了其实现原理。模型通过内存索引与磁盘索引相结合保证索引信息的实时展示,同时引入CommitLog日志保证内存索引数据容灾,并通过Master/Slave模型保证搜索服务的可用性。最终应用于实际生产系统中,实践结果充分证明了该模型的可行性。
-
关键词
信息检索
分布式实时搜索模型
SOLR
数据容灾
-
Keywords
information retrieval
distributed real-time search engine model
Solr
data disaster tolerance
-
分类号
TP393.4
[自动化与计算机技术—计算机应用技术]
-
-
题名利用搜索引擎数据模拟疾病空间分布
被引量:1
- 3
-
-
作者
肖屹
何宗宜
苗静
潘峰
杨好
-
机构
武汉大学资源与环境科学学院
武汉市测绘研究院
西安测绘总站
-
出处
《测绘通报》
CSCD
北大核心
2018年第2期94-98,共5页
-
基金
国家自然科学基金(41071290)
教育部人文社会科学研究项目(14YJCZH028)
-
文摘
互联网记录了人们的日常生活,对带有位置信息的搜索引擎数据进行分析和挖掘可以获得隐藏于其中的地理信息。本文通过分析中国各省流感月度发病数与相关关键词百度搜索指数之间的相关性,选取相关性较高关键词的百度指数作为解释变量,发病数作为因变量,在采用主成分分析法消除变量共线性后,分别使用普通最小二乘回归(OLS)、地理加权回归(GWR)及时空地理加权回归(GTWR)构建流感发病数的空间分布模型。模型的拟合度能够从OLS的0.737、GWR的0.915提高到GTWR的0.959,赤池信息准则(AIC)也表明,GTWR模型明显优于OLS与GWR模型。验证结果显示,GTWR模型能准确识别流感高发地区,将该方法与搜索引擎数据结合能较好地模拟流感空间分布,为空间流行病学的研究提供预测模型和统计解释。
-
关键词
时空地理加权回归模型
搜索引擎数据
流感
空间分布模型
-
Keywords
geographically and temporally weighted regression
search engine data
influenza
spatial distribution model
-
分类号
P208
[天文地球—地图制图学与地理信息工程]
-