-
题名基于大语言模型的移动应用隐私政策合规性检测方法
- 1
-
-
作者
王立梅
韩林睿
杜祖炜
郑日
时建中
刘奕群
-
机构
教育部哲学社会科学实验室——中国政法大学数据法治实验室
中国政法大学数据法治研究院
清华大学计算机科学与技术系
-
出处
《计算机科学》
北大核心
2025年第8期1-16,共16页
-
基金
2022年国家重点研发计划“社会治理与智慧社会科技支撑”重点专项(2022YFC3303000)。
-
文摘
隐私政策是网络服务提供者对其合法采集和利用个人信息行为的自律性承诺,旨在增强用户对个人信息处理过程的信任并提升其控制能力。然而,实际应用中却存在内容冗长、术语复杂、合规边界模糊等问题。传统方法依赖分类模型,通过对隐私政策文本进行标注实现自动化合规检测,但存在评估标准单一化、标注数据获取成本高、模型泛化能力不足等局限性。对此,提出一种基于大语言模型的移动应用隐私政策合规性检测方法,核心流程为“构建合规性评估体系-设计层级式推理框架-实现自动化合规检测”。首先,依据《民法典》《个人信息保护法》等9部法律法规及国家标准,构建包含6个一级指标、14个二级指标和41个三级指标的合规性评估体系;其次,基于动态最优轨迹搜索方法设计三阶段层级式推理框架DOTS-THCE,通过小样本提示工程引导大语言模型实现隐私政策的多层次动态评估;最后,基于从“腾讯应用宝”移动应用商店采集的PPC-Bench数据集(涵盖10个类别、4821份隐私政策文本)开展实验。实验结果表明,与Deepseek-LLM-7B-Chat,Llama3.1-8B-Chinese-Chat和GLM-4-9B-Chat相比,Qwen2.5-7B-Instruct模型经DOTS-THCE方法增强推理后性能更优。Qwen2.5-7B-Instruct@DOTS-THCE模型在隐私政策合规性检测中宏F1值达89.30%,显著优于SVM,CNN,RNN,BERT以及Qwen2.5-7B-Instruct@RAG等基线模型。研究不仅验证了大语言模型在隐私政策合规性检测中应用的有效性,更为破解司法领域高质量标注数据稀缺的困境提供了有益参考。
-
关键词
隐私政策
合规性检测
动态最优轨迹搜索
三阶段层级式推理框架
大语言模型
-
Keywords
Privacy policy
Compliance detection
Dynamic optimal trajectory search
Dynamic tri-stage hierarchical compliance evaluator
Large language model
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-