-
题名检索调研环境自适应抓取算法的研究与实现
被引量:1
- 1
-
-
作者
郝孟涛
黄川
刘金刚
-
机构
计算机科学联合研究院(首师大&中科院计算所)
百度在线网络技术(北京)有限公司
中科院计算所
-
出处
《科学技术与工程》
北大核心
2014年第1期231-234,共4页
-
文摘
检索调研环境是按照搜索引擎线上检索端模块搭建的供策略研发工程师进行策略调研的线下实验环境。验证策略生效最直接的方式是检索结果评估。策略调研效果评估的一个重要方式是搭建两套调研环境,原始环境和策略升级后环境,用一批query抓取这两个环境,然后对抓取结果送评,通过人工对比打分,由策略研发工程师对送评结果分析,决定是否上线策略。这应该是一个快速迭代的过程;但每个环节都有可能拉长迭代周期。调研环境的稳定性、资源不足、抓取效率等原因影响了策略调研阶段的时间,调研效率提升问题日渐突出。对调研过程中调研环境抓取改进进行研究,并实现了具有自适应性的在线学习抓取算法,极大地提升了抓取效率,减少抓取给调研效率上带来的负面影响。
-
关键词
搜索引擎
检索调研
自适应
抓取算法
-
Keywords
search engine Retrieval research self-adaptive learning crawl algorithm
-
分类号
TP311.11
[自动化与计算机技术—计算机软件与理论]
-