2. 广州中医药大学第二附属医院,广东 广州 510120
2. Second Affiliated Hospital of Guangzhou University of Chinese Medicine, Guangzhou, 510120, China
前列腺癌是男性最常见的癌症类型,高居美国男性癌症死亡原因的第2位[1]。治疗前列腺癌的主要手段之一就是放射治疗,分次外照射(EBRT)作为前列腺癌放疗的一种标准治疗方案,其目标是最大限度把放射剂量集中到病变区(靶区),杀死肿瘤细胞,同时使其周围正常组织和器官少受或者免受不必要的照射。有研究指出,提高靶区的放射剂量是提高前列腺癌局控率的有效手段[2]。然而,高剂量照射可能引起危及器官(OAR)(如直肠、尿道、膀胱等)的放射毒性增加,发生并发症的风险上升[3]。因此,有必要建立预测模型来评估前列腺癌放疗中正常组织的放射性毒性。
目前临床上常采用ICRU 89号报告[4]所推荐的剂量体积参数D0.1cc,D1cc和D2cc来评估OAR的放射毒性,其中D0.1cc,D1cc和D2cc分别表示OAR受到最高剂量照射的0.1 cm3,1 cm3和2 cm3体积内的最小剂量值。但是,利用剂量体积参数D0.1cc,D1cc和D2cc来评估OAR的放射毒性存在以下局限:第一、剂量体积参数仅是基于OAR的剂量体积直方图(DVH)计算得到,没有包含任何剂量空间分布信息;第二、没有考虑治疗分次间OAR的形变,导致其剂量体积参数被高估。OAR的剂量体积参数通过简单累加各分次的剂量体积参数值得到,各分次剂量体积参数则是基于OAR高剂量点在放疗期间是不变的[5-6]这一最坏条件假设下计算得到的,但在实际中摆位误差、器官位移和变形等问题的存在导致各分次剂量体积参数估值过高,进而高估了总体的OAR剂量体积参数。OAR实际受照剂量的高估约束了靶区分次剂量的提高,导致治疗效果不理想。因此,正确估计OAR的放射毒性有助于改善前列腺癌的放疗效果。以直肠为例,许多临床研究表明[7-10],直肠的放射毒性与其局部剂量分布信息密切相关。因此,在预测模型中加入剂量空间分布信息是非常有必要的。
当前,已有研究人员在直肠放射毒性预测模型方面开展了相关研究。例如,为评估宫颈癌放疗中的直肠并发症,Zhen等[11]提出了一种基于深度学习(VGG-16 [12])的预测模型;将配准后得到的3D直肠累积受照剂量分布平面展开成2D的直肠表面剂量分布,并直接将该2D的剂量分布用于VGG-16网络的训练和预测,取得了较为精确的结果。而Chen等[13]则采用机器学习方法来构建宫颈癌放疗直肠并发症的预测模型。采用SVM分析从3D直肠表面剂量分布提取的剂量体积特征,从2D剂量分布提取的剂量几何特征以及纹理特征,构建宫颈癌放疗直肠并发症预测模型,该模型的结果明显优于应用D0.1cc, D1cc和D2cc预测的结果。然而,上述方法有以下缺陷:(1)模态特征单一。上述两种方法均只考虑直肠表面剂量分布,然而在实际中,剂量分布可能并不是唯一的影响因素,其他临床参数也可能会导致直肠并发症的产生[14],并且有研究结果显示,多模态特征融合技术,可以提高预测的准确度[15]。(2)仅使用单个分类器。根据“没有免费的午餐”定理[16-17]任何一种分类算法都有其适应性,而针对具体问题,如何选择一种最适合的分类器算法,目前仍然没有定论[18-19],此分类器是否最适合直肠毒性预测问题有待考察。
对此,本研究创新地提出一种基于多准则决策的权重分配策略来实现多模态特征及多分类器的融合,并利用融合后的新型预测模型来评估前列腺癌放疗中直肠预后情况,最后通过与单模态单分类器的预测模型以及采用其他融合方式的预测模型进行比较验证了所提出模型的有效性。
1 资料和方法 1.1 研究对象本研究回顾性地收集了44例前列腺癌放疗病人的数据,包括临床治疗参数、计划CT图像和放疗计划。患者均接受了外照射放疗(EBRT),并根据直肠毒性评分等级将44例病人划分为经放疗后直肠有无并发症两类,其中直肠毒性Grade 0-1为直肠无并发症(17例),而Grade≥2为直肠发生并发症(27例)。
1.2 方法概述本文创新地提出一种基于多准则决策的多模态特征及多分类器融合模型。该模型不仅融合了前列腺癌放疗中的临床参数特征及剂量学特征(DVPs和DGPs)两种模态特征,还融合了支持向量机(SVM)[20]、决策树(DT)[21]、K近邻(KNN)[22]、随机森林(RF)[23]和XGBoost [24]5种分类器的信息。如此,该模型能使不同模态的信息进行互补,同时规避了选择最适合分类器的过程。如图 1所示,本模型包含4个主要部分,分别是:特征提取、特征选择、分类器决策融合以及模态信息融合。其训练过程如下:(1)提取临床参数特征以及剂量学特征,其中剂量学特征包括从直肠3D剂量分布提取的剂量体积参数和从2D剂量分布提取的剂量几何参数;(2)将提取的临床参数特征与剂量学特征分别进行特征选择;(3)将选择好的临床参数特征和剂量学特征分别训练SVM、DT、KNN、RF和XGBoost 5种分类器;(4)利用基于多准则决策的方法为单个分类器和单个模态分配权重ωm(m = 1, 2, …, 5)和
![]() |
图 1 模型框架示意图 Fig.1 Framework of the proposed model. |
从原始数据中提取的临床参数特征和剂量学特征如表 1所示。每一例病人的原始数据包括临床治疗参数、计划CT图像和放疗计划,其中临床治疗参数包含年龄、是否吸烟、是否患有糖尿病等18个特征。从计划CT图像和放疗计划中提取3D的直肠剂量分布并提取剂量体积参数(DVPs),即最高受照剂量体积x~cm3内的最小点剂量,其中x ∈[0.1, 2],间隔为0.1 cm3,共20个剂量体积参数。按照文献[13、25]中的方法,将3D直肠剂量分布展开为2D的剂量分布,并提取剂量几何参数(DGPs),其定义为不同剂量水平下的剂量区域提取的几何特征,包括:相对面积、绝对面积、偏心率、周长等11大类共1100个特征。
![]() |
表 1 用于直肠并发症预测的临床特征和剂量学特征 Tab.1 Clinical parameters and dosimetric features used in rectal toxicity prediction |
特征选择是在训练过程中,从原始特征集去除冗余特征,提取特征子集的过程。本研究采用LASSO回归[26]的方法进行特征选择。LASSO回归是通过最小化
![]() |
表 2 经LASSO回归选择的高频次特征 Tab.2 High frequency features selected by LASSO |
在测试过程中,模型首先在分类器层面上进行第一轮融合,然后在模态层面上进行第二轮的融合。因此,为单个分类器以及单模态分配权重是实现两轮融合的关键,对此,我们提出了一种基于多准则决策的权重分配算法来实现多模态特征和多分类器的融合。
本算法的思想是通过对不同评价指标的分析来为不同的评价对象分配权重。算法的具体流程如下:其输入是一个N×C的评价矩阵(N为评价对象的个数,代表多个分类器或者多个模态,C为评价指标的个数)以及评价指标的权重,经过正则化、权重化等步骤后计算每个评价对象的权重并归一化得到
![]() |
表 3 基于多准则决策的权重分配算法伪代码 Tab.3 Pseudocode of the proposed multi-criteria decision-making based weight allocation algorithm |
利用基于多准则决策的权重分配算法确定好各分类器和各模态特征的权重后,我们下一步要实现分类器决策融合与模态信息融合。所谓分类器决策融合,是指对每个分类器的预测概率进行加权求和:
为了说明本文模型的有效性,我们在以下4个方面进行了实验:
(1)特征选择方法的验证
考虑到特征选择方法可能会对模型产生较大影响,本研究比较了了FCBF [27],Trace_ratio [28]和reliefF [29]三种特征选择方法。
(2)基于多准则决策的权重分配算法的验证
为了说明基于多准则决策的权重分配算法的有效性,本研究将其与文献[30]所提到的三种分类器权重分配算法进行比较。与本研究所提出的权重分配算法不同,这些方法只根据分类器的准确率来计算权重,三种权重分配方法WF1、WF2和WF3,公式分别如(1)、(2)和(3)所示:
$ {\rm{WF}}1:\quad {w_n} = \frac{{{\eta _n}}}{{\sum\limits_i {{\eta _i}} }}, $ | (1) |
$ {\rm{WF}}2:\quad {w_n} = \frac{{{\eta _n} - {\eta _l}}}{{{\eta _u} - {\eta _l}}}, $ | (2) |
$ {\rm{WF}}3:\quad {w_n} = \log \frac{{{\eta _n}}}{{1 - {\eta _n}}}, $ | (3) |
其中,ηn为分类器的准确率,
(3)与单模态单分类器模型的比较
一方面,我们与单模态特征下各基分类器的表现进行比较;另一方面,我们还与单模态特征下决策融合后的模型进行比较。
(4)与不同融合模型的比较
为了说明完整模型的有效性,本研究与其他两种融合模型S1和S2进行了对比。图 2和图 3分别展示了S1和S2模型的融合过程。具体来说,S1模型直接对不同模态的特征进行融合(拼接),经过特征选择后再输入到RF和XGBoost两种集成分类器中;S2模型则是将两种模态特征分别输入到五种不同分类器(SVM、DT、KNN、RF和XGBoost)中进行训练,再对训练好的十个分类器进行决策融合。常用的决策融合方法包括多数投票法(PV)[31]、常规加权融合方法(WAF)[32]以及学习法(Stacking)[33],并在Stacking方法中采用采用逻辑回归[34]作为次级学习器。
![]() |
图 2 对比模型S1的融合示意图 Fig.2 Comparison reference ensemble scheme 1 (S1) to aggregate multi-modality features using Random Forests or XGBoost. |
![]() |
图 3 对比模型S2的融合示意图 Fig.3 Comparison reference ensemble scheme 2 (S2) to aggregate multi-modality features using PV, WAF or Stacking. |
本研究采用五折交叉验证并重复五次的方法,对上述模型进行评估。评价指标包括ROC曲线、准确性(Accuracy)、ROC曲线下的面积(AUC)、特异性(Specificity)和灵敏度(Sensitivity),公式分别如下:
Accuracy=(TP+TN)/(TP+FP+FN+TN)
Specificity=TN/(TN+FP)
Sensitivity=TP/(TP+FN),
其中,TP为真阳性,TN为真阴性,FP为假阳性,FN为假阴性。
2 结果 2.1 特征选择方法的验证与FCBF、Trace_ratio和reliefF三种不同的特征选择方法的结果对比如表 4所示,FCBF与LASSO有相近的预测结果,而Trace_ratio和reliefF算法的预测结果较差。
![]() |
表 4 不同特征选择方法的比较 Tab.4 Comparison of different feature selection methods |
比较结果如表 5所示。不难发现,与文献[30]中提到的3种方法相比,本文所提出的基于多准则决策的分类器权重分配方法具有更高的Accuracy,AUC和Specificity。但也应注意,本方法在Sensitivity上表现较差。
![]() |
表 5 不同分类器权重分配算法的比较 Tab.5 Comparison of different weight allocation algorithms for classifiers |
实验结果如表 6所示,其中列出了单模态特征下SVM、DT、KNN、RF和XGBoost 5种基分类器中表现最差和最好的分类器,同时也列出了这5种分类器决策融合后的结果作为对比,可以发现不同的分类器对数据的适应性是不同的,同时单模态下的决策融合取得的结果位于最差分类器与最优分类器之间,而本研究提出的模型在融合多模态与多分类器信息后在Accuracy、AUC、Specificity上都取得了最优的结果,其中Accuracy、AUC和Specificity分别为0.78、0.83和0.79,在Sensitivity上表现得稍差一些,只有0.76。
![]() |
表 6 本研究提出的模型与单模态单分类器结果比较 Tab.6 Comparison of the results by the proposed model and by the single modality single classifier |
在本研究中,其结果如表 7以及图 4所示,可以发现,我们提出的融合模型较S1和S2两种融合模型在直肠并发症预测方面可以取得更准确得结果。
![]() |
表 7 本研究提出的模型与S1、S2的预测结果对比 Tab.7 Performance comparisons between the proposed model and S1, S2 |
![]() |
图 4 本研究提出的模型与S1、S2的ROC曲线 Fig.4 ROC analysis between H-MCF, S1, and S2. |
在本研究中,我们创新地提出一种基于多准则决策的多模态特征及多分类器融合模型,并将其用于前列腺癌放疗直肠并发症的预测。该模型不仅考虑了临床和剂量两种模态特征,而且融合了多种分类器的信息。与其他融合模型相比,该模型能更准确地预测前列腺癌放疗中直肠并发症的存在。
对比FCBF、Trace_ratio和reliefF与LASSO方法选出的特征,我们发现FCBF方法选出的特征与表 2中选出的特征类似,而Trace_ratio和reliefF选出的特征则有较大差异,主要表现在剂量特征的选择上,Trace_ratio和reliefF在剂量特征中选出的特征主要是剂量几何参数下绝对面积这一项,与直肠并发症高度相关的剂量体积参数则一个都没有被选中。上述实验说明,特征选择方法也有其适应性,针对具体任务应具体分析。
在与不同权重分配算法的验证实验中,本研究所提出的基于多准则决策的分类器权重分配方法在准确率、AUC和特异性3个方面均表现最优,展现了本文方法的有效性,这可能是因为本研究提出的权重分配方法不仅仅依赖于分类器的准确率,而且还考虑了分类器其他的固有属性(如AUC、灵敏度等)。
从与单模态单分类器的结果中我们发现,不同分类器的适用范围不同。例如,复杂的XGBoost分类器在临床特征中表现最好,而在剂量学特征中表现最好却是简单的KNN,这再次证明“没有免费的午餐”定理[16-17]。比较结果还表明,对多个基于单模态特征的分类器进行决策融合,虽然规避了最优单分类器的选择过程,但并不能保证模型始终得到最好的结果。相比之下,本研究所提出的融合模型始终好于各分类器以及各分类器融合,说明多模态特征融合能够提高模型预测的准确度,这一点与文献[15]是一致的。
与不同融合模型S1和S2相比,本研究提出的这种分层次的融合策略取得了更好的预测效果,其原因是它能够对多模态特征和多分类器进行更合理的管理。模型S1虽然利用了来自于不同模态的特征,但这些特征对模型的贡献是相同的,这是不合理的。因此我们需要一个特定的特征加权过程来突出那些对预测结果贡献更大的特征同时弱化那些无益的甚至对预测结果有反作用的特征。而对于模型S2而言,虽然每一种模态的特征都是被单独处理的,但是同时对不同模态下的多个分类器进行决策融合会使得某些适应性很差的分类器直接作用于最终的预测结果,进而导致预测失效。本研究所提出的分层融合方式能很好地改进模型S1和S2的不足,对多模态特征以及多分类器的权重分配也更合理。因此,本文模型取得更好的预测表现是符合预期的。
虽然本研究所提出的模型在前列腺癌放疗直肠并发症预测方面更具有竞争力,但是也存在一些缺陷。首先,未考虑多分类问题。基于多准则决策的权重分配算法在二分类问题下所使用的评价指标并不完全适用于多分类情况。其次,评价指标的分配也只是采用简单的平均法。因此,将本模型拓展到多分类问题上是我们未来的研究方向此外,还需要更多数据来进一步训练、验证和完善本研究所提出的模型。
本研究创新地提出一种基于多准则决策的权重分配算法来实现不同模态特征和多种分类器的分层融合,并在此基础上提出了一种基于多模态及多分类器融合的预测模型来估计前列腺癌放疗中直肠并发症的预后。与单模态单分类器以及其他融合模型相比,本研究所提出的融合模型能够更精准地预测直肠在前列腺癌放疗中的毒性,为未来有效安全地提高靶区剂量和前列腺癌局控率奠定基础。
[1] |
Smith RA, Andrews KS, Brooks D, et al. Cancer screening in the United States, 2018: a review of current American cancer society guidelines and current issues in cancer screening[J]. CA Cancer J Clin, 2018, 68(4): 297-316. DOI:10.3322/caac.21446 |
[2] |
Kalbasi A, Li JQ, Berman AT, et al. Dose-Escalated irradiation and overall survival in men with nonmetastatic prostate cancer[J]. JAMA Oncol, 2015, 1(7): 897-906. DOI:10.1001/jamaoncol.2015.2316 |
[3] |
Anna B, Ferran F, Valentin N, et al. Association between EBRT dose volume histograms and quality of Life in prostate cancer patients[J]. Rep Pract Oncol Radiother, 2018, 23(5): 360-8. DOI:10.1016/j.rpor.2018.07.009 |
[4] |
Montana GS, Fowler WC, Varia MA, et al. Carcinoma of the cervix, stage Ⅲ. Results of radiation therapy[J]. Cancer, 1986, 57(1): 148-54. DOI:10.1002/1097-0142(19860101)57:1<148::AID-CNCR2820570130>3.0.CO;2-7 |
[5] |
Horiot JC, Pigneux J, Pourquier H, et al. Radiotherapy alone in carcinoma of the intact uterine cervix according to G. H. Fletcher guidelines: a French cooperative study of 1383 cases[J]. Int J Radiat Oncol Biol Phys, 1988, 14(4): 605-11. DOI:10.1016/0360-3016(88)90080-6 |
[6] |
Rose PG, Ali S, Whitney CW, et al. Outcome of stage IVA cervical cancer patients with disease limited to the pelvis in the era of chemoradiation: a gynecologic oncology group study[J]. Gynecol Oncol, 2011, 121(3): 542-5. DOI:10.1016/j.ygyno.2011.02.024 |
[7] |
Buettner F, Gulliford SL, Webb S, et al. Assessing correlations between the spatial distribution of the dose to the rectal wall and late rectal toxicity after prostate radiotherapy: an analysis of data from the MRC RT01 trial (ISRCTN 47772397)[J]. Phys Med Biol, 2009, 54(21): 6535-48. DOI:10.1088/0031-9155/54/21/006 |
[8] |
Lee R, Chan EK, Kosztyla R, et al. Dose-distance metric that predicts late rectal bleeding in patients receiving radical prostate external-beam radiotherapy[J]. Phys Med Biol, 2012, 57(24): 8297-307. DOI:10.1088/0031-9155/57/24/8297 |
[9] |
Wortel RC, Witte MG, Van Der Heide UA, et al. Dose-surface maps identifying local dose-effects for acute gastrointestinal toxicity after radiotherapy for prostate cancer[J]. Radiother Oncol, 2015, 117(3): 515-20. DOI:10.1016/j.radonc.2015.10.020 |
[10] |
Dréan G, Acosta O, Ospina JD, et al. Identification of a rectal subregion highly predictive of rectal bleeding in prostate cancer IMRT[J]. Radiother Oncol, 2016, 119(3): 388-97. DOI:10.1016/j.radonc.2016.04.023 |
[11] |
Zhen X, Chen JW, Zhong ZC, et al. Deep convolutional neural network with transfer learning for rectum toxicity prediction in cervical cancer radiotherapy: a feasibility study[J]. Phys Med Biol, 2017, 62(21): 8246-63. DOI:10.1088/1361-6560/aa8d09 |
[12] |
Chen JW, Chen HB, Zhong ZC, et al. Investigating rectal toxicity associated dosimetric features with deformable accumulated rectal surface dose maps for cervical cancer radiotherapy[J]. Radiat Oncol, 2018, 13(1): 125. DOI:10.1186/s13014-018-1068-0 |
[13] |
Kim DN, Cho LC, Straka C, et al. Predictors of rectal tolerance observed in a Dose-Escalated phase 1-2 trial of stereotactic body radiation therapy for prostate cancer[J]. Int J Radiat Oncol Biol Phys, 2014, 89(3): 509-17. DOI:10.1016/j.ijrobp.2014.03.012 |
[14] |
Zhou ZG, Folkert M, Iyengar P, et al. Multi-objective radiomics model for predicting distant failure in lung SBRT[J]. Phys Med Biol, 2017, 62(11): 4460-78. DOI:10.1088/1361-6560/aa6ae5 |
[15] |
Wolpert DH. The lack of A priori distinctions between learning algorithms[J]. Neural Comput, 1996, 8(7): 1341-90. DOI:10.1162/neco.1996.8.7.1341 |
[16] |
Wolpert DH, Macready WG. No free lunch theorems for optimization[J]. IEEE Trans Evolut Comp, 1997, 1(1): 67-82. DOI:10.1109/4235.585893 |
[17] |
Parmar C, Grossmann P, Bussink J, et al. Machine learning methods for quantitative radiomic biomarkers[J]. Sci Rep, 2015, 5: 13087. DOI:10.1038/srep13087 |
[18] |
Vickers AJ. Prediction models: revolutionary in principle, but do they do more good than harm?[J]. J Clin Oncol, 2011, 29(22): 2951-2. DOI:10.1200/JCO.2011.36.1329 |
[19] |
Burges CC. A tutorial on support vector machines for pattern recognition[J]. Data Min Knowl Discov, 1998, 2(2): 121-67. |
[20] |
Safavian SR, Landgrebe D. A survey of decision tree classifier methodology[J]. IEEE Trans Syst Man Cybern, 1991, 21(3): 660-74. DOI:10.1109/21.97458 |
[21] |
Cover T, Hart P. Nearest neighbor pattern classification[J]. IEEE Trans Inf Theory, 1953, 13(1): 21-7. |
[22] |
Cutler A, Cutler DR, Stevens JR. Random forests[J]. Mach Learn, 2004, 45(1): 157-76. |
[23] |
Chen WB, Fu K, Zuo JW, et al. Radar emitter classification for large data set based on weighted-xgboost[J]. IET Radar Sonar Navig, 2017, 11(8): 1203-7. DOI:10.1049/iet-rsn.2016.0632 |
[24] |
陈嘉伟, 陈海斌, 何强, 等. 宫颈癌放疗中基于精确表面剂量累加的直肠并发症预测模型[J]. 南方医科大学学报, 2017, 37(12): 1626-31. DOI:10.3969/j.issn.1673-4254.2017.12.11 |
[25] |
Tibshirani R. Regression shrinkage and selection via the Lasso[J]. J Royal Statis Soc, 1996, 58(1): 267-88. |
[26] |
Liu H, Yu L. Toward integrating feature selection algorithms for classification and clustering[J]. IEEE Trans Knowl Data Eng, 2005, 17(4): 491-502. DOI:10.1109/TKDE.2005.66 |
[27] |
Liu Y, Nie F, Wu J, et al. Efficient semi-supervised feature selection with noise insensitive trace ratio criterion[J]. Neurocomputing, 2013, 105: 12-8. DOI:10.1016/j.neucom.2012.05.031 |
[28] |
Robnik-Ikonja M, Kononenko I. Theoretical and empirical analysis of ReliefF and RReliefF[J]. Mach Learn, 2003, 53(1/2): 23-69. DOI:10.1023/A:1025667309714 |
[29] |
Liu ZG, Pan Q, Dezert J, et al. Classifier fusion with contextual reliability evaluation[J]. IEEE Trans Cybern, 2018, 48(5): 1605-18. DOI:10.1109/TCYB.2017.2710205 |
[30] |
韩敏, 朱新荣. 基于反向标定合成数据的改进集成算法[J]. 电子与信息学报, 2011, 33(6): 1475-80. |
[31] |
Liu ZG, Pan Q, Dezert J, et al. Combination of classifiers with optimal weight based on evidential reasoning[J]. IEEE Trans Fuzzy Sys, 2018, 26(3): 1217-30. DOI:10.1109/TFUZZ.2017.2718483 |
[32] |
Wolpert DH. Stacked generalization[J]. Neural Networks, 1992, 5(2): 241-59. DOI:10.1016/S0893-6080(05)80023-1 |
[33] |
Cucchiara A. Applied logistic regression[J]. Technometrics, 2012, 34(3): 2. |