-
题名人工智能训练中合成数据的融贯性法律治理
被引量:6
- 1
-
-
作者
张涛
-
机构
教育部哲学社会科学实验室——中国政法大学数据法治实验室
中国政法大学数据法治研究院
中国政法大学数字社会治理研究院
-
出处
《计算机科学》
北大核心
2025年第2期20-32,共13页
-
文摘
人工智能需要大规模、多样化和高质量的数据来训练机器学习模型,而收集这些真实世界的数据可能成本高昂,并可能威胁个人隐私、引发偏见或歧视以及侵犯版权。在实践中,合成数据作为一种替代性解决方案,受到广泛关注,被越来越多地用于训练机器学习模型。从数据法学的角度,借助数据科学以及计算机科学领域的研究成果,对人工智能训练中合成数据的治理框架进行了探索。首先,从规范层面分析了在人工智能训练中合成数据之所以受到重视的逻辑前提,即个人信息保护法所追求的“小隐私”保护与人工智能训练的“大数据”需求之间存在明显的不兼容性,使训练数据的开发面临挑战,而现有的法律和技术解决方案均存在治理效能不彰的问题。在此基础上,探讨了人工智能训练中合成数据的应用场景与风险类型。最后,提出以“法律3.0理论”和“数据治理理论”作为指引,从3个方面构建人工智能训练中合成数据的融贯性法律治理框架:制定合成数据的处理规则,强化合成数据的过程治理,开发合成数据的评估工具。
-
关键词
人工智能
合成数据
法律3.0
融贯性治理
数据法学
-
Keywords
Artificial intelligence
Synthetic data
Law 3.0
Coherent governance
Data law
-
分类号
P181
[天文地球—天文学]
DF37
[政治法律—宪法学与行政法学]
DF0-059
[政治法律—法学理论]
-
-
题名基于大语言模型的移动应用隐私政策合规性检测方法
- 2
-
-
作者
王立梅
韩林睿
杜祖炜
郑日
时建中
刘奕群
-
机构
教育部哲学社会科学实验室——中国政法大学数据法治实验室
中国政法大学数据法治研究院
清华大学计算机科学与技术系
-
出处
《计算机科学》
北大核心
2025年第8期1-16,共16页
-
基金
2022年国家重点研发计划“社会治理与智慧社会科技支撑”重点专项(2022YFC3303000)。
-
文摘
隐私政策是网络服务提供者对其合法采集和利用个人信息行为的自律性承诺,旨在增强用户对个人信息处理过程的信任并提升其控制能力。然而,实际应用中却存在内容冗长、术语复杂、合规边界模糊等问题。传统方法依赖分类模型,通过对隐私政策文本进行标注实现自动化合规检测,但存在评估标准单一化、标注数据获取成本高、模型泛化能力不足等局限性。对此,提出一种基于大语言模型的移动应用隐私政策合规性检测方法,核心流程为“构建合规性评估体系-设计层级式推理框架-实现自动化合规检测”。首先,依据《民法典》《个人信息保护法》等9部法律法规及国家标准,构建包含6个一级指标、14个二级指标和41个三级指标的合规性评估体系;其次,基于动态最优轨迹搜索方法设计三阶段层级式推理框架DOTS-THCE,通过小样本提示工程引导大语言模型实现隐私政策的多层次动态评估;最后,基于从“腾讯应用宝”移动应用商店采集的PPC-Bench数据集(涵盖10个类别、4821份隐私政策文本)开展实验。实验结果表明,与Deepseek-LLM-7B-Chat,Llama3.1-8B-Chinese-Chat和GLM-4-9B-Chat相比,Qwen2.5-7B-Instruct模型经DOTS-THCE方法增强推理后性能更优。Qwen2.5-7B-Instruct@DOTS-THCE模型在隐私政策合规性检测中宏F1值达89.30%,显著优于SVM,CNN,RNN,BERT以及Qwen2.5-7B-Instruct@RAG等基线模型。研究不仅验证了大语言模型在隐私政策合规性检测中应用的有效性,更为破解司法领域高质量标注数据稀缺的困境提供了有益参考。
-
关键词
隐私政策
合规性检测
动态最优轨迹搜索
三阶段层级式推理框架
大语言模型
-
Keywords
Privacy policy
Compliance detection
Dynamic optimal trajectory search
Dynamic tri-stage hierarchical compliance evaluator
Large language model
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于大语言模型的刑事案件智能判决研究
被引量:2
- 3
-
-
作者
丛颖男
韩林睿
马佳羽
朱金清
-
机构
中国政法大学商学院
教育部哲学社会科学实验室——中国政法大学数据法治实验室
中国政法大学数据法治研究院
清华大学法学院
北京字节跳动网络技术有限公司
-
出处
《计算机科学》
北大核心
2025年第5期248-259,共12页
-
基金
2025年中国政法大学青年教师学术创新团队支持计划(25CXTD04)
2022年国家重点研发计划“社会治理与智慧社会科技支撑”重点专项(2022YFC3303000)
教育部人文社会科学研究一般项目(22YJC190003)。
-
文摘
刑事案件判决的智能化一直是数字法院建设中的研究热点。传统方法基于自然语言处理技术,由模型依据案件事实直接预测判决结果,但应对复杂刑事案件案情时,模型难以发现法律要件之间的逻辑依赖关系,也难以清晰表达法律推理过程。文中提出一种基于大语言模型的刑事案件智能判决方法,该方法以“标记案件语料-预训练大模型-强化判决逻辑”为思路,首先通过自动化标注与人工校正相结合的方式,标注案情中的主体、客体、主观要件和客观要件等法律要素,构建结构化的推理数据集;其次基于GLM预训练框架,选取ChatGLM3-6b-32k作为基座大语言模型进行增量预训练;最后采用LoRA参数高效微调策略与大模型检索增强技术对模型进行参数调优与法律知识扩展,实现判决逻辑的强化。实验结果表明,与Qwen-7B-Chat和Baichuan2-7B-Chat相比,ChatGLM3-6b-32k模型在指令监督微调后性能更优。引入司法三段论显著增强了判决文本的逻辑性,使其更贴近人类法官的裁判说理。在罪名预测和刑期预测任务中,所提模型准确率相较于MTL-Fusion,Lawformer和BERT模型均有显著提升。此外,与基于欧美法律文本训练的Legal-BERT和CaseLawBERT相比,所提模型更适应中国刑事案件的判决逻辑,在处理长文本任务上展现出更强的能力。该研究不仅探索了大语言模型在刑事案件智能判决中的应用,还为司法领域大模型研究的范式提供了有益参考。
-
关键词
数字法院
法律判决预测
司法三段论
大语言模型
参数高效微调
-
Keywords
Digital court
Legal judgement prediction
Judicial syllogism
Large language model
Parameter-efficient fine-tuning
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-