-
题名基于哈希算法的互联网平台数据中台资源检索方法
- 1
-
-
作者
梁艳春
阮宜龙
李晨阳
张宏俊
-
机构
中国通信建设集团有限公司
中国电信集团有限公司
中国通信服务股份有限公司
-
出处
《现代传输》
2024年第2期37-40,共4页
-
基金
江苏省研究生科研与实践创新计划项目(KYCX22_1019)。
-
文摘
由于检索请求数据自身具有高维特征,导致检索输出的查准率和查全率偏低,为此,本文提出基于哈希算法的互联网平台数据中台资源检索方法。以信息跨域检索为导向,借助哈希算法实现对输入互联网平台数据中台资源检索请求的降维处理,在对输入数据进行清洗、去重、分词等预处理操作的基础上,使用词袋模型的方法,将文本转化为向量,再借助主成分分析法实现对向量的降维。在检索阶段,将与检索请求相似度最高(欧氏距离最小的)资源作为最终的检索输出结果。在测试结果中,资源检索方法面对不同类型的资源检索请求,对应的查准率稳定在91.0%以上,查全率稳定在90.0%以上。
-
关键词
哈希算法
互联网平台
数据中台
资源检索
信息跨域检索
降维处理
词袋模型
主成分分析法
欧氏距离
-
Keywords
Hash algorithm
Internet platform
Data center
Resource retrieval
Cross domain information retrieval
Dimension reduction treatment
Word bag model
Principal component analysis method
Euclidean distance
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-