南方医科大学学报 ›› 2023, Vol. 43 ›› Issue (6): 952-963.doi: 10.12122/j.issn.1673-4254.2023.06.10
高凯绩,王一豪,曹海坤,贾建光
GAO Kaiji, WANG Yihao, CAO Haikun, JIA Jianguang
摘要: 目的 探讨机器学习和传统Cox回归模型在预测食管胃结合部腺癌(AEG)患者术后生存能力中的应用价值。方法 选取2015年9月~2020年10月本院收治的287例AEG患者,排除失访及临床资料缺失者,共筛选出203例患者的临床病理资料,经过对数据的赋值等处理,转换成满足R语言分析数据的要求的数据。将203例患者数据使用随机数表法按照3∶1的比例划分为训练集和验证集,对两组数据分别进行Cox比例风险模型构建和4种机器学习模型的构建,绘制出ROC曲线、校准曲线和临床决策曲线(DCA)。为评估4种机器学习模型之间的预测效能,进行机器学习模型的内部验证。通过曲线下面积(AUC)评价模型预测的性能,校准曲线反映模型的拟合情况,并通过DAC判断其临床意义。结果 Cox等比例风险回归、极端梯度提升、随机森林、支持向量机、多层感知机验证集中3年生存率的AUC值分别为0.870、0.901、0.791、0.832、0.725,验证集中5年生存率的AUC值分别为0.915、0.916、0.758、0.905、0.737。4种机器学习模型内部验证分别是:极端梯度提升(AUC=0.818)、随机森林(AUC=0.772)、支持向量机(AUC=0.804)、多层感知机(AUC=0.745)。结论 机器学习模型对于AEG患者生存率预测的表现优于Cox等比例风险回归模型,尤其在不满足等比例假设或线性回归模型下,并能够包含较多的影响变量。在内部验证中,XGBoost模型的预测效能最好,支持向量机次之,随机森林出现过拟合,多层感知机受数据量影响可能拟合效果较差。