海量网站中博彩类违法网站的捕获方法
TP3; 针对海量网站中博彩类违法网站的检测问题,提出了一种基于BERT-BiLSTM与多分类器决策级融合的网站分类方法.该方法通过以下方式来提升分类性能:首先采用网页标签标题、超链接标题等优先的网页特征文本提取方法提升特征文本内容的丰富度;其次提出基于BERT?BiLSTM的文本分类模型,该模型具有良好的语句特征表示能力,从而提升分类性能;最后将网站标题、关键词和网页文本3种网站不同描述维度的分类结果进行决策级融合,进一步提升整个系统的性能与鲁棒性.通过采用多种策略生成疑似博彩网站的域名,提升该方法主动捕获博彩类违法网站的能力.实验结果以及在现实网络空间中的运行结果都充分验证了本文方法的有效...
Saved in:
Published in | 数据采集与处理 Vol. 36; no. 5; pp. 1050 - 1061 |
---|---|
Main Authors | , , , , |
Format | Journal Article |
Language | Chinese |
Published |
江苏警官学院江苏省公安厅数字取证重点实验室,南京 210031%江苏省公安厅网络安全保卫总队,南京 210024%南京市公安局大数据中心,南京 210005
01.09.2021
江苏警官学院计算机信息与网络安全系,南京 210031 江苏警官学院江苏省电子数据取证分析工程研究中心,南京 210031 |
Subjects | |
Online Access | Get full text |
ISSN | 1004-9037 |
DOI | 10.16337/j.1004-9037.2021.05.020 |
Cover
Summary: | TP3; 针对海量网站中博彩类违法网站的检测问题,提出了一种基于BERT-BiLSTM与多分类器决策级融合的网站分类方法.该方法通过以下方式来提升分类性能:首先采用网页标签标题、超链接标题等优先的网页特征文本提取方法提升特征文本内容的丰富度;其次提出基于BERT?BiLSTM的文本分类模型,该模型具有良好的语句特征表示能力,从而提升分类性能;最后将网站标题、关键词和网页文本3种网站不同描述维度的分类结果进行决策级融合,进一步提升整个系统的性能与鲁棒性.通过采用多种策略生成疑似博彩网站的域名,提升该方法主动捕获博彩类违法网站的能力.实验结果以及在现实网络空间中的运行结果都充分验证了本文方法的有效性. |
---|---|
ISSN: | 1004-9037 |
DOI: | 10.16337/j.1004-9037.2021.05.020 |