基于人DNA甲基化的宫颈癌及癌前病变机器学习预测模型构建与初步验证

目的:利用人基因的甲基化特征,构建预测宫颈癌及癌前病变的机器学习预测模型。方法:对2014年4月至2015年3月来自中国医学科学院肿瘤医院、天津市中心妇产科医院、河南省新密妇幼保健院、四川大学华西第二附属医院和山西长治医学院附属和平医院的224例宫颈脱落细胞标本进行人DNA甲基化检测,通过CpG高密度、高关联、高甲基化基因片段筛选和LASSO回归算法,筛选出与宫颈癌病变相关的高甲基化基因片段。以宫颈上皮内瘤变2级(CIN2)及以上病变为研究结局,以144例门诊患者标本为训练集,构建随机森林(RF)、朴素贝叶斯(NB)和支持向量机(SVM)3种机器学习预测模型,以80例参与宫颈癌筛查项目女性的宫...

Full description

Saved in:
Bibliographic Details
Published in中华肿瘤杂志 Vol. 47; no. 2; pp. 193 - 200
Main Authors 杨源, 周航, 王亚坤, 戴钰, 皮若及, 章华, 黄紫玥, 吴婷, 杨敬红, 陈汶
Format Journal Article
LanguageChinese
Published 厦门大学公共卫生学院 国家传染病诊断试剂与疫苗工程技术研究中心,厦门361102%国家癌症中心 国家肿瘤临床医学研究中心 中国医学科学院北京协和医学院肿瘤医院流行病学研究室,北京100021%首都医科大学附属北京中医医院疾控处,北京100010%绵阳市妇幼保健院妇幼健康管理科,绵阳621000 23.02.2025
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:目的:利用人基因的甲基化特征,构建预测宫颈癌及癌前病变的机器学习预测模型。方法:对2014年4月至2015年3月来自中国医学科学院肿瘤医院、天津市中心妇产科医院、河南省新密妇幼保健院、四川大学华西第二附属医院和山西长治医学院附属和平医院的224例宫颈脱落细胞标本进行人DNA甲基化检测,通过CpG高密度、高关联、高甲基化基因片段筛选和LASSO回归算法,筛选出与宫颈癌病变相关的高甲基化基因片段。以宫颈上皮内瘤变2级(CIN2)及以上病变为研究结局,以144例门诊患者标本为训练集,构建随机森林(RF)、朴素贝叶斯(NB)和支持向量机(SVM)3种机器学习预测模型,以80例参与宫颈癌筛查项目女性的宫颈脱落细胞标本为验证集对预测模型进行验证。以组织学诊断结果为金标准,比较3种机器学习预测模型与HPV检测和细胞学诊断对CIN2及以上病变的检出效能。结果:训练集144例中,HPV阳性34例,阳性率为23.61%。细胞学诊断为无上皮内病变或恶性细胞(NILM)37例,不能明确意义的非典型鳞状上皮细胞(ASC-US)及以上病变107例。组织学诊断为未见宫颈上皮内病变或宫颈良性病变28例,CIN1 31例,CIN2 18例,CIN3 31例,鳞癌36例。从45个基因中筛选出7个高甲基化基因片段,构建了RF、NB和SVM机器学习预测模型。验证集80例中,HPV阳性28例,阳性率为35.00%。细胞学诊断为NILM 65例,ASC-US及以上病变 15例。组织学诊断为未见宫颈上皮内病变或宫颈良性病变39例,CIN1 10例,CIN2 10例,CIN3 11例,鳞癌10例。在验证集中,RF模型、NB模型、SVM模型、HPV检测和细胞学诊断CIN2及以上病变的受试者工作特征曲线下面积(AUC)分别为0.90、0.88、0.82、0.68和0.45。DeLong检验显示,RF模型、NB模型和SVM模型的AUC差异无统计学意义(两两比较均 P>0.05),RF模型、NB模型的AUC高于HPV检测(均 P<0.01),RF模型、NB模型、SVM模型的AUC高于细胞学诊断(均 P<0.01)。RF模型与NB模型相比,灵敏度相近(分别为80.65%和77.42%),但NB模型的特异度远高于RF模型(分别为93.88%和73.47%)。 结论:基于人DNA甲基化构建的宫颈癌及癌前病变机器学习预测模型中,NB模型对CIN2及以上病变的预测效能良好,或可
ISSN:0253-3766
DOI:10.3760/cma.j.cn112152-20230925-00156