中文摘要
结直肠癌在中国是最为常见的一种恶性肿瘤,是第三大最常诊断的癌症。虽然分子和临床生物标志物已被用于指导临床决策,但是对结直肠癌从早期发展到转移相关的潜在分子生物标志物和治疗靶点的深入了解大多尚未完成。
从 TCGA 数据库获得结肠癌和直肠癌表达谱和临床信息,共获得了383例癌症样本、51例正常样本。对count表达谱数据进行TPM标准化及数据预处理,将所得的基因再比对回count 值进行差异表达分析。我们首先将结直肠癌表达谱整理成了由17348个基因构成的表达谱,根据该数据进行差异表达分析,一共得到了5112个差异表达基因。然后我们使用了加权基因共表达网络,对结直肠癌症患者的TPM数据格式的基因表达谱,进行了模块分析,在本次研究中识别出了29个模块。接着在筛选差异基因的模块时,我们使用了常用的一种统计方法,超几何富集分析。其中有4个与结直肠癌相关模块在进行通路与功能鉴定时被显著富集,这些基因将会应用于我们实验的后续分析中。通过使用 Cox 回归和Lasso回归,我们可以从总体中挑选出17 个具有特定 signature 的基因,并利用它们的Coef结果,来估算各种样本的风险程度。通过将样本按照Kaplan-Meier、ROC等指标进行评估,我们发现,较高的风险水平往往会导致较差的预后。这些预后情况也被Kaplan-Meier、AUC的结果所支持。
最后,通过GEO数据库下载GSE103479作为验证集,以此来评估此实验获得的关键 signature基因对结直肠癌潜在的治疗以及预后价值的可靠程度。验证集GSE103479的Kaplan-Meier生存曲线与ROC曲线显示了关键signature 基因对结直肠癌有潜在治疗和预后价值。
综上,在此次实验中,最终识别到与结直肠癌预后相关的17个关键signature 基因,并通过验证集的结果验证了这些基因与结直肠癌的治疗及预后显著相关。该实验的结果有助于为结直肠癌患者的靶向治疗以及预后开拓了新思路。
关键词:WGCNA;结直肠癌;单因素Cox回归;Lasso回归;风险回归模型
评论0