期刊文献+

结合论文施引特征和分布式检索技术的引文耦合度算法设计

Design of Citation Coupling Algorithm Combining Paper Citation Characteristics and Distributed Retrieval
在线阅读 下载PDF
导出
摘要 大规模科技文献知识库的全量引文耦合关系因计算量巨大的难题,阻碍了引文耦合知识服务在诸多业务场景的应用.本文提出了一种适用于大规模文献知识库的全量引文耦合度计算算法,根据施引特征过滤没有耦合关系的无效组合,避免计算过程中稀疏矩阵的产生,并引入多模式匹配技术,优化算法的整体时间复杂度为O(n log z).本算法在生产环境中依赖分布式搜索引擎集群完成工程化实施.在国家科技图书文献中心的3600万篇科技文献数据库上,对该方法与传统引文耦合方法进行了多组实验对比,并生成了6.59亿论文对的耦合度数据,为国家科技图书文献中心的引文耦合知识服务提供了数据支持,验证了该方法的准确性和实用性. The huge computational complexity of the full citation coupling relationship in large-scale scientific literature knowledge bases hinders the application of citation coupling knowledge services in many business scenarios.This paper proposes a full citation coupling calculation algorithm suitable for large-scale literature knowledge bases.It filters out invalid combinations without coupling relationships based on citation characteristics,avoids the generation of sparse matrices during the calculation process,and introduces multi-pattern matching technology to optimize the algorithm.The overall time complexity of is O(n log z).This algorithm relies on distributed search engine clusters to complete engineering implementation in the production environment.Multiple sets of experiments were conducted to compare this method with the traditional citation coupling method on the 36 million scientific and technological literature database of the National Science and Technology Library Coupled knowledge services provide data support,verifying the accuracy and practicality of the method.
作者 郭锐锋 常志军 董美 张建勇 钱力 董智鹏 GUO Ruifeng;CHANG Zhijun;DONG Mei;ZHANG Jianyong;QIAN Li;DONG Zhipeng(Shenyang Institute of Computing Technology,University of Chinese Academy of Sciences,Shenyang 110168,China;National Science Library,Chinese Academy of Sciences,Beijing 100190,China;University of Chinese Academy of Sciences,Beijing 100190,China)
出处 《小型微型计算机系统》 北大核心 2025年第2期297-304,共8页 Journal of Chinese Computer Systems
基金 国家科技图书文献中心(NSTL)项目(2021XM31)资助 国家社会科学基金项目(21BTQ106)资助。
关键词 引文耦合度 分布式搜索引擎 稀疏矩阵 施引特征 多模式匹配 bibliographic coupling distributed search engine sparse matrix citation characteristics multi-pattern matching
作者简介 郭锐锋,男,1968年生,博士,研究员,CCF会员,研究方向为多模态学习;常志军,男,1981年生,博士研究生,副研究馆员,研究方向为多模态学习、数据治理,E-mail:changzj@mail.las.ac.cn;董美,女,1996年生,硕士,研究方向为大数据情报分析;张建勇,男,1965年生,硕士,研究馆员,研究方向为数据库建设和数据管理;钱力,男,1981年生,博士,研究馆员,研究方向为大数据情报分析方法与技术;董智鹏,男,1985年生,硕士,馆员,研究方向为计算机软件及计算机应用.
  • 相关文献

参考文献11

二级参考文献66

  • 1王洵.开斯勒与“文献合配”[J].情报科学,1981,2(4):29-32. 被引量:12
  • 2张晗,崔雷.运用共词聚类分析法研究生物信息学的学科热点[J].医学情报工作,2004,25(5):327-330. 被引量:46
  • 3王贺封.时空数据模型及TGIS研究[J].测绘与空间地理信息,2006,29(4):11-13. 被引量:26
  • 4崔雷.专题文献高频主题词的共词聚类分析[J].情报理论与实践,1996,19(4):49-51. 被引量:148
  • 5GRANLUND M. Extending AIS research to manage- ment accounting and control issues: a research note [J]. International Journal of Accounting Information Systems,2011,12(1) :3-19.
  • 6VODAS M, PELEKIS N, THEODORIDIS Y, et al. Efficient AIS data processing for environmentally safe shipping[EB/OL].[2015-03-15]. http://slideplayer. com/slide/5869588/.
  • 7SARWAT M, BAO J, ELDAWY A, et al. Sindbad: a location-based social networking system[C]//Proceed- ings of the 2012 ACM Sigmod International Conference on Management of Data. [S. 1. -] ..ACM,2012 ..649-652.
  • 8RANA R,HU W,WARK T,et al. An adaptive algo- rithm for compressive approximation of trajectory (AACAT) for delay tolerant networks [EB/OL]. [2015-03-15]. http://www, cse. unsw. edu. au/wenh/ rana_aacat, pdf.
  • 9CUDRE-MAUROUX P,WU E,MADDEN S. TrajS- tore an adaptive storage system for very large trajecto- ry data sets[C]//IEEE 26th International Conference on Data Engineering (ICDE). Long Beach.. IEEE, 2010109-120.
  • 10LI Z H,DING B,HAN J W,et al. Swarm.. mining re- laxed temporal moving object clusters[J]. Proceedings of the VLDB Endowment, 2010,3 (1) .. 723-734.

共引文献77

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部