摘要
大规模科技文献知识库的全量引文耦合关系因计算量巨大的难题,阻碍了引文耦合知识服务在诸多业务场景的应用.本文提出了一种适用于大规模文献知识库的全量引文耦合度计算算法,根据施引特征过滤没有耦合关系的无效组合,避免计算过程中稀疏矩阵的产生,并引入多模式匹配技术,优化算法的整体时间复杂度为O(n log z).本算法在生产环境中依赖分布式搜索引擎集群完成工程化实施.在国家科技图书文献中心的3600万篇科技文献数据库上,对该方法与传统引文耦合方法进行了多组实验对比,并生成了6.59亿论文对的耦合度数据,为国家科技图书文献中心的引文耦合知识服务提供了数据支持,验证了该方法的准确性和实用性.
The huge computational complexity of the full citation coupling relationship in large-scale scientific literature knowledge bases hinders the application of citation coupling knowledge services in many business scenarios.This paper proposes a full citation coupling calculation algorithm suitable for large-scale literature knowledge bases.It filters out invalid combinations without coupling relationships based on citation characteristics,avoids the generation of sparse matrices during the calculation process,and introduces multi-pattern matching technology to optimize the algorithm.The overall time complexity of is O(n log z).This algorithm relies on distributed search engine clusters to complete engineering implementation in the production environment.Multiple sets of experiments were conducted to compare this method with the traditional citation coupling method on the 36 million scientific and technological literature database of the National Science and Technology Library Coupled knowledge services provide data support,verifying the accuracy and practicality of the method.
作者
郭锐锋
常志军
董美
张建勇
钱力
董智鹏
GUO Ruifeng;CHANG Zhijun;DONG Mei;ZHANG Jianyong;QIAN Li;DONG Zhipeng(Shenyang Institute of Computing Technology,University of Chinese Academy of Sciences,Shenyang 110168,China;National Science Library,Chinese Academy of Sciences,Beijing 100190,China;University of Chinese Academy of Sciences,Beijing 100190,China)
出处
《小型微型计算机系统》
北大核心
2025年第2期297-304,共8页
Journal of Chinese Computer Systems
基金
国家科技图书文献中心(NSTL)项目(2021XM31)资助
国家社会科学基金项目(21BTQ106)资助。
关键词
引文耦合度
分布式搜索引擎
稀疏矩阵
施引特征
多模式匹配
bibliographic coupling
distributed search engine
sparse matrix
citation characteristics
multi-pattern matching
作者简介
郭锐锋,男,1968年生,博士,研究员,CCF会员,研究方向为多模态学习;常志军,男,1981年生,博士研究生,副研究馆员,研究方向为多模态学习、数据治理,E-mail:changzj@mail.las.ac.cn;董美,女,1996年生,硕士,研究方向为大数据情报分析;张建勇,男,1965年生,硕士,研究馆员,研究方向为数据库建设和数据管理;钱力,男,1981年生,博士,研究馆员,研究方向为大数据情报分析方法与技术;董智鹏,男,1985年生,硕士,馆员,研究方向为计算机软件及计算机应用.