-
题名面向低质量数据的隐私记录链接方法
- 1
-
-
作者
黄汉城
马玉鹏
赵凡
方鹏
王保全
王轶
-
机构
中国科学院新疆理化技术研究所多语种信息技术研究室
中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室
中国科学院大学
-
出处
《计算机应用研究》
北大核心
2025年第11期3454-3460,共7页
-
基金
新疆维吾尔自治区“天山英才”资助项目(2023TSYCCX0046,2023TSYCLJ0022,2024TSYCLJ0039)
新疆维吾尔自治区重点研发计划资助项目(2023B1026)
新疆维吾尔自治区“天池英才”资助项目。
-
文摘
现有基于位向量编码的隐私记录链接方法多针对记录间的字符级差异,对生产环境下普遍存在的缺损记录问题关注不足。针对这一问题,提出一种面向低质量数据的隐私记录链接方法(LQ-PPRL)。采用动态分块策略增加缺损记录的分组次数,提高缺损记录正确分块概率;根据缺损模式自适应调整缺损记录的匹配阈值,增加缺损记录匹配成功的可能性;在保留字符级模糊匹配能力的同时,缓解缺损记录带来的匹配错误问题,提高低质量数据的隐私记录链接整体效果。实验结果表明,相比于传统的位向量编码隐私记录链接协议,LQ-PPRL在低质量数据上具有更高的召回率以及F 1值,验证了其在处理低质量的隐私链接任务上的优越性。
-
关键词
隐私计算
隐私记录链接
低质量数据
缺失值
缺损记录
-
Keywords
privacy computing
privacy-preserving record linkage
low-quality data
missing values
incomplete records
-
分类号
TP309
[自动化与计算机技术—计算机系统结构]
-