基于半监督学习的涉及未成年人案件文书识别方法

TP391; 案件文书作为司法信息公开的重要内容,需要在审判之后向公众公开,某些涉及未成年人的案件文书极有可能会造成未成年人的个人隐私信息泄露.为了能从大量案件文书中准确地识别出涉及未成年人信息的文书,进而有针对性地对其进行隐私保护处理.同时,为解决现实数据集因有标注样本缺乏而难以进行有效的有监督学习的问题,文中提出了基于半监督学习的涉及未成年人案件文书识别方法.首先,对案件文书语料文本进行预处理后分别使用Word2 Vec和BERT-wwm-ext对文本进行特征提取,将长语料文本转换为可作为分类模型输入的数据格式;接着,采用PU学习方法训练分类模型,在正例样本极少的情况下借助大量未标注样本构...

Full description

Saved in:
Bibliographic Details
Published in华南理工大学学报(自然科学版) Vol. 49; no. 1; pp. 29 - 46
Main Authors 杨圣豪, 吴玥悦, 毛佳昕, 刘奕群, 张敏, 马少平
Format Journal Article
LanguageChinese
Published 清华大学 计算机科学与技术系//北京信息科学与技术国家研究中心, 北京100084 2021
Subjects
Online AccessGet full text
ISSN1000-565X
DOI10.12141/j.issn.1000-565X.200513

Cover

Loading…
More Information
Summary:TP391; 案件文书作为司法信息公开的重要内容,需要在审判之后向公众公开,某些涉及未成年人的案件文书极有可能会造成未成年人的个人隐私信息泄露.为了能从大量案件文书中准确地识别出涉及未成年人信息的文书,进而有针对性地对其进行隐私保护处理.同时,为解决现实数据集因有标注样本缺乏而难以进行有效的有监督学习的问题,文中提出了基于半监督学习的涉及未成年人案件文书识别方法.首先,对案件文书语料文本进行预处理后分别使用Word2 Vec和BERT-wwm-ext对文本进行特征提取,将长语料文本转换为可作为分类模型输入的数据格式;接着,采用PU学习方法训练分类模型,在正例样本极少的情况下借助大量未标注样本构建有效的分类器;然后,在分类模型预测结果的基础上,使用主动学习方法获取关键词并对模型预测结果进行筛选处理,以进一步提升预测效果.在基于现实场景比例构建的测试集上,文中提出的案件文书识别方法取得了98.67%的召回率和81.02%的准确率.
ISSN:1000-565X
DOI:10.12141/j.issn.1000-565X.200513