海量网站中博彩类违法网站的捕获方法

TP3; 针对海量网站中博彩类违法网站的检测问题,提出了一种基于BERT-BiLSTM与多分类器决策级融合的网站分类方法.该方法通过以下方式来提升分类性能:首先采用网页标签标题、超链接标题等优先的网页特征文本提取方法提升特征文本内容的丰富度;其次提出基于BERT?BiLSTM的文本分类模型,该模型具有良好的语句特征表示能力,从而提升分类性能;最后将网站标题、关键词和网页文本3种网站不同描述维度的分类结果进行决策级融合,进一步提升整个系统的性能与鲁棒性.通过采用多种策略生成疑似博彩网站的域名,提升该方法主动捕获博彩类违法网站的能力.实验结果以及在现实网络空间中的运行结果都充分验证了本文方法的有效...

Full description

Saved in:
Bibliographic Details
Published in数据采集与处理 Vol. 36; no. 5; pp. 1050 - 1061
Main Authors 刘家银, 印杰, 牛博威, 诸葛程晨, 贺海辰
Format Journal Article
LanguageChinese
Published 江苏警官学院江苏省公安厅数字取证重点实验室,南京 210031%江苏省公安厅网络安全保卫总队,南京 210024%南京市公安局大数据中心,南京 210005 01.09.2021
江苏警官学院计算机信息与网络安全系,南京 210031
江苏警官学院江苏省电子数据取证分析工程研究中心,南京 210031
Subjects
Online AccessGet full text
ISSN1004-9037
DOI10.16337/j.1004-9037.2021.05.020

Cover

More Information
Summary:TP3; 针对海量网站中博彩类违法网站的检测问题,提出了一种基于BERT-BiLSTM与多分类器决策级融合的网站分类方法.该方法通过以下方式来提升分类性能:首先采用网页标签标题、超链接标题等优先的网页特征文本提取方法提升特征文本内容的丰富度;其次提出基于BERT?BiLSTM的文本分类模型,该模型具有良好的语句特征表示能力,从而提升分类性能;最后将网站标题、关键词和网页文本3种网站不同描述维度的分类结果进行决策级融合,进一步提升整个系统的性能与鲁棒性.通过采用多种策略生成疑似博彩网站的域名,提升该方法主动捕获博彩类违法网站的能力.实验结果以及在现实网络空间中的运行结果都充分验证了本文方法的有效性.
ISSN:1004-9037
DOI:10.16337/j.1004-9037.2021.05.020