期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于半监督学习的涉及未成年人案件文书识别方法
被引量:
2
1
作者
杨圣豪
吴玥悦
+3 位作者
毛佳昕
刘奕群
张敏
马少平
《华南理工大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2021年第1期29-38,46,共11页
案件文书作为司法信息公开的重要内容,需要在审判之后向公众公开,某些涉及未成年人的案件文书极有可能会造成未成年人的个人隐私信息泄露。为了能从大量案件文书中准确地识别出涉及未成年人信息的文书,进而有针对性地对其进行隐私保护...
案件文书作为司法信息公开的重要内容,需要在审判之后向公众公开,某些涉及未成年人的案件文书极有可能会造成未成年人的个人隐私信息泄露。为了能从大量案件文书中准确地识别出涉及未成年人信息的文书,进而有针对性地对其进行隐私保护处理。同时,为解决现实数据集因有标注样本缺乏而难以进行有效的有监督学习的问题,文中提出了基于半监督学习的涉及未成年人案件文书识别方法。首先,对案件文书语料文本进行预处理后分别使用Word2Vec和BERT-wwm-ext对文本进行特征提取,将长语料文本转换为可作为分类模型输入的数据格式;接着,采用PU学习方法训练分类模型,在正例样本极少的情况下借助大量未标注样本构建有效的分类器;然后,在分类模型预测结果的基础上,使用主动学习方法获取关键词并对模型预测结果进行筛选处理,以进一步提升预测效果。在基于现实场景比例构建的测试集上,文中提出的案件文书识别方法取得了98.67%的召回率和81.02%的准确率。
展开更多
关键词
文本分类
文本特征提取
深度学习
半监督学习
在线阅读
下载PDF
职称材料
题名
基于半监督学习的涉及未成年人案件文书识别方法
被引量:
2
1
作者
杨圣豪
吴玥悦
毛佳昕
刘奕群
张敏
马少平
机构
清华大学计算机科学与技术系//北京信息科学与技术国家研究中心
出处
《华南理工大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2021年第1期29-38,46,共11页
基金
国家重点研发计划项目(2018YFC0831700)
国家自然科学基金资助项目(61732008,61532011)。
文摘
案件文书作为司法信息公开的重要内容,需要在审判之后向公众公开,某些涉及未成年人的案件文书极有可能会造成未成年人的个人隐私信息泄露。为了能从大量案件文书中准确地识别出涉及未成年人信息的文书,进而有针对性地对其进行隐私保护处理。同时,为解决现实数据集因有标注样本缺乏而难以进行有效的有监督学习的问题,文中提出了基于半监督学习的涉及未成年人案件文书识别方法。首先,对案件文书语料文本进行预处理后分别使用Word2Vec和BERT-wwm-ext对文本进行特征提取,将长语料文本转换为可作为分类模型输入的数据格式;接着,采用PU学习方法训练分类模型,在正例样本极少的情况下借助大量未标注样本构建有效的分类器;然后,在分类模型预测结果的基础上,使用主动学习方法获取关键词并对模型预测结果进行筛选处理,以进一步提升预测效果。在基于现实场景比例构建的测试集上,文中提出的案件文书识别方法取得了98.67%的召回率和81.02%的准确率。
关键词
文本分类
文本特征提取
深度学习
半监督学习
Keywords
text classification
text feature extraction
deep learning
semi-supervised learning
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于半监督学习的涉及未成年人案件文书识别方法
杨圣豪
吴玥悦
毛佳昕
刘奕群
张敏
马少平
《华南理工大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2021
2
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部