不同表达矩阵对筛选差异长链非编码RNA的影响

K826.15; 目的·基于全转录组测序数据,比较长链非编码RNA(long non-coding RNA,lncRNA)表达水平差异分析的2种方法在筛选差异lncRNA方面的效果.方法·从NCBI_GEO数据库下载2组全转录组测序数据集共10个样本.A组为人类通用参考RNA样本,B组为人脑参考RNA样本,每个样本均包含一系列来自于外源RNA对照物联盟(external RNA control consortium,ERCC)的已知浓度的外源合成RNA(spike-in RNA).对处理后的测序数据使用mRNA、lncRNA以及总体RNA的注释参考基因组分别进行计数,从而获得相应的包含spik...

Full description

Saved in:
Bibliographic Details
Published in上海交通大学学报(医学版) Vol. 42; no. 7; pp. 911 - 918
Main Authors 魏豪, 邱家俊, 颜景斌
Format Journal Article
LanguageChinese
Published 上海市儿童医院,上海交通大学医学院附属儿童医院医学遗传研究所,上海市胚胎与生殖工程重点实验室,上海200040 28.07.2022
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:K826.15; 目的·基于全转录组测序数据,比较长链非编码RNA(long non-coding RNA,lncRNA)表达水平差异分析的2种方法在筛选差异lncRNA方面的效果.方法·从NCBI_GEO数据库下载2组全转录组测序数据集共10个样本.A组为人类通用参考RNA样本,B组为人脑参考RNA样本,每个样本均包含一系列来自于外源RNA对照物联盟(external RNA control consortium,ERCC)的已知浓度的外源合成RNA(spike-in RNA).对处理后的测序数据使用mRNA、lncRNA以及总体RNA的注释参考基因组分别进行计数,从而获得相应的包含spike-in RNA注释信息的3个表达矩阵.在P<0.05的条件下,根据在不同组别中spike-in RNA的真实浓度,判断差异表达分析结果的假阳性率和假阴性率.再使用R语言软件包DESeq2和edgeR对所有表达矩阵分别进行组间差异表达分析,以spike-in RNA的受试者操作特征(receiver operating characteristic,ROC)曲线来展示不同表达矩阵差异表达分析的特异性和准确性.该研究主要关注总体RNA表达矩阵和lncRNA表达矩阵之间的差异.此外对组内样本的总体RNA表达矩阵和lncRNA表达矩阵分别进行差异lncRNA分析,统计P值分布,比较不同表达矩阵的假阳性率.结果·在P<0.05的条件下,A组和B组之间spike-in RNA的假阳性率和假阴性率,在以总体RNA表达矩阵为背景分析时为0.52和0.14,以lncRNA表达矩阵分析时为0.30和0.17,可见使用lncRNA表达矩阵差异分析的假阳性率更低.使用不同软件包分析的表达矩阵中spike-in RNA的ROC曲线下面积(area under the curve,AUC)大小关系基本一致,均为AUC(总体RNA)≈AUC(mRNA)<AUC(lncRNA),可见依据lncRNA表达矩阵筛选差异spike-in的效果更好.而组内的lncRNA差异分析结果显示,在P<0.05的条件下,A组中lncRNA表达矩阵和总体RNA表达矩阵的差异lncRNA分别有9个和7个,B组中分别有15个和17个,不同表达矩阵之间的数目并没有显著差异.结论·在对全转录组测序数据中的已知lncRNA进行差异表达分析时,使用仅含有lncRNA的表达矩阵分析具有更
ISSN:1674-8115
DOI:10.3969/j.issn.1674-8115.2022.07.010