大语言模型(large language model,LLM)技术热潮对数据质量的要求提升到了一个新的高度.在现实场景中,数据通常来源不同且高度相关.但由于数据隐私安全问题,跨域异质数据往往不允许集中共享,难以被LLM高效利用.鉴于此,提出了一种LLM和...大语言模型(large language model,LLM)技术热潮对数据质量的要求提升到了一个新的高度.在现实场景中,数据通常来源不同且高度相关.但由于数据隐私安全问题,跨域异质数据往往不允许集中共享,难以被LLM高效利用.鉴于此,提出了一种LLM和知识图谱(knowledge graph,KG)协同的跨域异质数据查询框架,在LLM+KG的范式下给出跨域异质数据查询的一个治理方案.为确保LLM能够适应多场景中的跨域异质数据,首先采用适配器对跨域异质数据进行融合,并构建相应的知识图谱.为提高查询效率,引入线性知识图,并提出同源知识图抽取算法HKGE来实现知识图谱的重构,可显著提高查询性能,确保跨域异质数据治理的高效性.进而,为保证多域数据查询的高可信度,提出可信候选子图匹配算法Trust HKGM,用于检验跨域同源数据的置信度计算和可信候选子图匹配,剔除低质量节点.最后,提出基于线性知识图提示的多域数据查询算法MKLGP,实现LLM+KG范式下的高效可信跨域查询.该方法在多个真实数据集上进行了广泛实验,验证了所提方法的有效性和高效性.展开更多
基于本地化差分隐私多关系表示上的Star-JOIN查询已得到研究者广泛关注.现有基于OLH机制与层次树结构的Star-JOIN查询算法存在根节点泄露隐私风险、τ-截断机制没有给出如何选择合适τ值等问题.针对现有算法存在的不足,提出一种有效且...基于本地化差分隐私多关系表示上的Star-JOIN查询已得到研究者广泛关注.现有基于OLH机制与层次树结构的Star-JOIN查询算法存在根节点泄露隐私风险、τ-截断机制没有给出如何选择合适τ值等问题.针对现有算法存在的不足,提出一种有效且满足本地化差分隐私的Star-JOIN查询算法LPRR-JOIN(longitudinal path random response for join).该算法充分利用层次树的纵向路径结构与GRR机制,设计一种纵向本地扰动算法LPRR,该算法以所有属性纵向路径上的节点组合作为扰动值域.每个用户把自身元组映射到相应节点组合中,再利用GRR机制对映射后的元组进行本地扰动.为了避免事实表上存在的频率攻击,LPRR-JOIN算法允许每个用户利用阈值τ本地截断自身元组个数,大于τ条元组删减、小于τ条元组补充.为了寻找合适的τ值,LPRR-JOIN算法利用τ-截断带来的偏差与扰动方差构造总体误差函数,通过优化误差目标函数获得τ值;其次结合用户分组策略获得τ值的总体分布,再利用中位数获得合适的τ值.LPRR-JOIN算法与现有算法在3种多关系数据集上进行比较,实验结果表明其响应查询算法优于同类算法.展开更多
文摘大语言模型(large language model,LLM)技术热潮对数据质量的要求提升到了一个新的高度.在现实场景中,数据通常来源不同且高度相关.但由于数据隐私安全问题,跨域异质数据往往不允许集中共享,难以被LLM高效利用.鉴于此,提出了一种LLM和知识图谱(knowledge graph,KG)协同的跨域异质数据查询框架,在LLM+KG的范式下给出跨域异质数据查询的一个治理方案.为确保LLM能够适应多场景中的跨域异质数据,首先采用适配器对跨域异质数据进行融合,并构建相应的知识图谱.为提高查询效率,引入线性知识图,并提出同源知识图抽取算法HKGE来实现知识图谱的重构,可显著提高查询性能,确保跨域异质数据治理的高效性.进而,为保证多域数据查询的高可信度,提出可信候选子图匹配算法Trust HKGM,用于检验跨域同源数据的置信度计算和可信候选子图匹配,剔除低质量节点.最后,提出基于线性知识图提示的多域数据查询算法MKLGP,实现LLM+KG范式下的高效可信跨域查询.该方法在多个真实数据集上进行了广泛实验,验证了所提方法的有效性和高效性.
文摘基于本地化差分隐私多关系表示上的Star-JOIN查询已得到研究者广泛关注.现有基于OLH机制与层次树结构的Star-JOIN查询算法存在根节点泄露隐私风险、τ-截断机制没有给出如何选择合适τ值等问题.针对现有算法存在的不足,提出一种有效且满足本地化差分隐私的Star-JOIN查询算法LPRR-JOIN(longitudinal path random response for join).该算法充分利用层次树的纵向路径结构与GRR机制,设计一种纵向本地扰动算法LPRR,该算法以所有属性纵向路径上的节点组合作为扰动值域.每个用户把自身元组映射到相应节点组合中,再利用GRR机制对映射后的元组进行本地扰动.为了避免事实表上存在的频率攻击,LPRR-JOIN算法允许每个用户利用阈值τ本地截断自身元组个数,大于τ条元组删减、小于τ条元组补充.为了寻找合适的τ值,LPRR-JOIN算法利用τ-截断带来的偏差与扰动方差构造总体误差函数,通过优化误差目标函数获得τ值;其次结合用户分组策略获得τ值的总体分布,再利用中位数获得合适的τ值.LPRR-JOIN算法与现有算法在3种多关系数据集上进行比较,实验结果表明其响应查询算法优于同类算法.