贝叶斯期中分析与经典期中分析在成组序贯设计中的比较

引用本文 [复制中英文]

原玲玲, 詹志颖, 谭旭辉. 贝叶斯期中分析与经典期中分析在成组序贯设计中的比较[J]. 武汉大学学报(医学版), 2015, 35(11): 1638-1642. DOI: 10.3969/j.issn.1673-4254.2015.11.24.

YUAN Lingling, ZHAN Zhiying, TAN Xuhui. Comparison of Bayesian interim analysis and classical interim analysis in group sequential design[J]. Medical Journal of Wuhan University, 2015, 35(11): 1638-1642. DOI: 10.3969/j.issn.1673-4254.2015.11.24. 复制到剪切板

基金项目

国家自然科学基金（81302515）；广东省自然科学基金（S2013040013902）；高等学校博士学科点专项科研基金（20134433120023）

作者简介

原玲玲，博士，助理研究员，E-mail: txhyll@163.com。

通信作者

谭旭辉，博士，副教授，E-mail: txh8287@sina.com

文章历史

收稿日期：2015-11-01

Contents Abstract Full text Figures/Tables PDF

贝叶斯期中分析与经典期中分析在成组序贯设计中的比较

原玲玲¹, 詹志颖², 谭旭辉²

1. 人文与管理学院南方医科大学广东广州 510515 ;
2. 生物统计学系，南方医科大学广东广州 510515

收稿日期：2015-11-01

基金项目：国家自然科学基金（81302515）；广东省自然科学基金（S2013040013902）；高等学校博士学科点专项科研基金（20134433120023）

作者简介：原玲玲，博士，助理研究员，E-mail: txhyll@163.com。

通信作者：谭旭辉，博士，副教授，E-mail: txh8287@sina.com

摘要: 目的比较贝叶斯期中分析与经典方法的期中分析的差异。方法以对照组（Control）和试验组（Treatment）的两样本均数比较为分析目的，即θ=μ_T -μ_C（θ越大疗效越好），建立H₀:θ≤0;H₁:θ > 0的优效性假设检验（拒绝H₀，即支持处理组疗效）。按照成组序贯设计的数据要求，在每次期中分析时刻，计算各种先验分布的贝叶斯期中分析Ⅰ类错误、功效、平均样本量、平均阶段数等指标。结果在Pocock和O'Brien & Fleming设计中，Skeptical先验和Handicap先验的Ⅰ类错误ε均能控制在0.05左右。当O' Brien & Fleming和Pocock方法功效在80%时，基于Handicap先验和Skeptical先验的贝叶斯功效相对来说明显较低，而基于Non-informative先验和Enthusiastic先验的贝叶斯功效则明显较高。结论 Skeptical先验和Handicap先验的贝叶斯期中分析能较好的控制Ⅰ类错误ε，基于Skeptical先验和Handicap先验的贝叶斯期中分析相对于O'Brien & Fleming方法均能够明显增加试验提前终止的可能性，而对于Pocock方法则没有太大实际意义。

关键词: 成组序贯设计贝叶斯期中分析先验分布

Comparison of Bayesian interim analysis and classical interim analysis in group sequential design

YUAN Lingling¹, ZHAN Zhiying², TAN Xuhui²

1. School of Humanities and Management, Southern Medical University, Guangzhou 510515, China ;
2. Department of Biostatistics, Southern Medical University, Guangzhou 510515, China

Supported by National Natural Science Foundation of China (81302515)

Abstract: Objective To explore the differences between the Bayesian interim analysis and the classical interim analysis. Methods To compare the means of two independent samples between control and treatment, superior hypothesis test was established. In line with the data requirements for group sequential design, Type I error of Bayesian interim analysis based on various prior distributions, Power, Average Sample Size and Average Stage were estimated in the interim analysis. Results In the Pocock and O' Brien & Fleming designs, the Type I errors in the Bayesian interim analysis based on the skeptical prior distribution and the handicap prior distribution were controlled at around 0.05. When the powers of these two classical designs were both 80%, Bayesian powers of the skeptical prior distribution and the handicap prior distribution were markedly lower. The powers of the non-informative prior distribution and the enthusiastic prior distribution were distinctly higher than 80%. Conclusion In the Bayesian interim analysis based on the skeptical prior distribution and the handicap Prior distribution, the Type I errors can be well controlled. Bayesian interim analyses using these two prior distributions, compared with the analysis adopting the O' Brien & Fleming method, can markedly increase the possibility of ending the clinical trials ahead of time. The Bayesian interim analyses based on these two distributions do not have practical value for group sequential design of the Pocock method.

Key words: group sequential design Bayes interim analysis prior distribution

在临床试验领域，以往试验的先验信息没有被充分利用是一个普遍现象，而贝叶斯统计^[1-2]是一种能充分利用先验信息的统计方法。在药物临床试验中，期中分析通常能够有效的降低试验所需的样本量并提前完成试验，从而为药物的上市节省大量的时间和资源。而结合了先验信息的贝叶斯期中分析在临床试验中相对于传统期中分析是否可行可靠、能否进一步提高效率等相关疑问亟待明确。

因此，为了了解贝叶斯期中分析与成组序贯设计^[3-4]的经典期中分析^[5]的差异，揭示两种方法在具体应用上的优劣势，定量评估贝叶斯结果的可靠性，本文将对贝叶斯期中分析与经典期中分析进行比较，重点对几种常见的先验分布的影响进行评估，为贝叶斯期中分析在临床试验领域的应用提供理论参考，也为今后药物临床试验的期中分析提供新的思路。

1 方法与原理 1.1 成组序贯设计

成组序贯设计是一种在试验正式结束前，能提供多次期中分析的设计。成组序贯方法是由Pocock于1977 年提出了Unified family 方法^[6]，其包括Pocock、O'Brien- Fleming、Power family等方法。其中Power family 方法是由Wang 和Tsiatis 于1987 提出^[7]，其通过参数Power 值的改变来得到不同的临界值。从设计方案角度来说，成组序贯设计是将整个试验划分成K个连续的时间段，每个时间段内每个处理组都有n个受试者加入。当第k 个阶段（k=1，2，…，K）结束后，把之前各个阶段试验结果累积起来进行一次统计分析。对于拒绝性的成组序贯设计，如果拒绝H₀则试验结束，否则继续下一阶段试验。当其处于最后一个试验阶段时，其结果不是接受H₀，就是拒绝H₀。

1.2 贝叶斯统计

假设参数θ，其概率分布为π(θ)，观察值y1,…,yn来自概率密度函数为P( y|θ)，则：

$\begin{align} &p\left( \theta \left| y \right. \right)=p\left( \theta ,y \right)/p\left( y \right)=p\left( y\left| \theta \right. \right)\pi \left( \theta \right)/\int{p\left( y\left| \theta \right. \right)}\pi \left( \theta \right)d\theta \\ &设L\left( \theta \right)\infty p\left( \theta \left| y \right. \right),则p\left( \theta \left| y \right. \right)\infty L\left( \theta \right)\pi \left( \theta \right) \\ \end{align}$

由以上过程也可发现，贝叶斯统计推断均是基于后验概率分布p(θ|y)。而贝叶斯统计与经典统计的主要区别就在于先验信息的使用。在贝叶斯统计中，先验一般都具有主观性，然而为了减少主观性对后验概率的影响，也提出了一些较“客观”的先验分布^[8]，例如广义先验分布、无信息先验分布、共轭先验分布以及有信息先验分布等。在一些较复杂的具体分析中，贝叶斯统计需要应用MCMC方法模拟产生基于后验分布的样本，并以此来估计特征统计量。

1.3 贝叶斯期中分析

贝叶斯期中分析是基于试验过程中所得到的后验概率分布，并在此基础上作出统计推断。在该过程中不需要事先指定终止标准以及所需样本量，仅仅应用后验P 值来进行期中监测^[9]。而经典的期中分析是建立在“Neyman-Pearson”理论上，其重点是在于控制Ⅰ和Ⅱ类错误。

ICH-GCP 将期中分析定义为：在一个临床试验正式完成之前的任何时间内，为了比较组间的有效性或安全性而进行的分析。依据后验概率P 的期中分析，如果小于设定的临界值ε，即p(H₀|data) ≤（ε 为了与经典统计Ⅰ类错误α区分，记为ε），则拒绝H₀。因此，先验分布的选择对于贝叶斯期中分析是至关重要的。为了让试验支持者或试验怀疑者能够达成较一致的结论，先验分布的选择有如下两个原则^[10]：（1）如果是阳性结局（positive result）的试验，其P值的计算应基于Skeptical 先验；（2）如果是阴性结局（negative result）的试验，其P 值的计算应基于Enthusiastic先验。

在以上两原则的条件下，仍以较大的概率支持相应的结局，则可下支持相应结局的结论。

1.4 期中分析之间的比较设计

在临床试验中，Pocock和O' Brien&Fleming^[11]期中分析方法是成组序贯设计中比较常见的两种方法。在对比研究中，我们以经典成组序贯为设计框架，按照频率学派的观点，在功效，Ⅰ类错误以及实际所需样本量等方面，将贝叶斯期中分析与常见的两种经典期中分析方法进行比较。由于成组序贯设计在实施前需确定一些参数，如α、β、δ、以及期中分析次数等，我们事先定义期中分析次数为k，总分析次数为K（即K=k+1）。以对照组和试验组的两样本均数比较为分析目的，即θ=μ_T - μ_C（θ越大疗效越好），建立H₀:θ ≤0;H₁:θ > 0的优效性假设检验。对于两组的试验模拟数据，可由样本量公式计算出第k阶段每组所需样本量（假设两组样本量相等）。我们以N(μ_T ,σ_T²)、N(μ_C,σ_C²)表示试验和对照组总体，从中随机模拟生成各个阶段所需的样本试验数据。为了简化设计，我们假设σ_T = σ_C,μ_T > μ_C，即两处理组有共方差。在模拟比较中，较“客观”的先验分布选择Enthusiastic 先验、Skeptical 先验、Handicap 先验和Non-informative 先验（无信息先验）。Pocock 和O'Brien&Fleming两种方法的参数设定如表1。

表 1 参数设定 Table 1 Parameter setting

基于经典期中分析结果，提出了评价贝叶斯期中分析效果的两个指标，即贝叶斯阳性符合率和贝叶斯阴性符合率^[12]。贝叶斯阳性符合率计算公式如公式（1）：

${{C}_{p}}=\frac{N_{p}^{CB}}{N_{p}^{C}}$

(1)

假设在有差异的两总体中，进行了N_p 次成组序贯模拟；N_p^C:在N_p试验中，经典期中分析N_p^C次拒绝H₀ ； N_p^B:在N_p试验中，贝叶斯期中分析N_p^B次拒绝H₀ ；N_p^CB: 在经典期中分析N_p^C次拒绝H₀ 的试验中，贝叶斯期中分析也拒绝H₀ 的次数。

从公式（1），我们可推出，经典期中分析的功效Power_C = N_p^C/N_p ；贝叶斯期中分析的功效Power_B = N_p^BN_p 贝叶斯阴性符合率计算公式如公式（2）：

${{C}_{n}}=\frac{N_{n}^{CB}}{N_{n}^{C}}$

(2)

假设在无差异的两总体中，进行了N_n 次成组序贯模拟；N_n^C:在N_n 试验中，经典期中分析N_n^C 次不拒绝H₀ ；N_n^B :在N_n 试验中，贝叶斯期中分析N_n^B 次不拒绝H₀ ；N_n^CB :在经典期中分析N_n^C 次不拒绝H₀ 的试验中，贝叶斯期中分析也不拒绝H₀ 的次数。

从公式（2），我们可推出，经典期中分析的Ⅰ类错误α =1 - N_n^C/N_n ；按照频率学派观点，贝叶斯期中分析的Ⅰ类错误ε =1 - N_n^B/N_n 。与此同时，我们也可计算另外两个指标，即贝叶斯期中分析的平均样本量（Average Sample Size）记为ASS_p 和平均终止阶段数（Average Stage），记为AS_p。

2 结果 2.1 两总体均数相同

在两总体均数相同条件下，我们将成组序贯设计按以下参数进行设定（表2）。

表 2 O'Brien&Fleming和Pocock方法参数设定（两总体均数相等） Table 2 Parameter setting in the O'Brien&Fleming method and the Pocock method (two equal population means)

在O_Set5_1 和O_Set5_2（即O' Brien&Fleming 方法）参数设置下，不同先验分布和贝叶斯期中分析阴性符合率以及Ⅰ类错误如表3。在P_Set5_1和P_Set5_ 2（即Pocock方法）参数设置下，不同先验分布和贝叶斯期中分析阴性符合率以及Ⅰ类错误如表4。

表 3 O'Brien&Fleming方法下的贝叶斯阴性符合率、Ⅰ类错误 Table 3 Bayesian negative coincidence rate and Type I error in the O'Brien&Fleming method

表 4 Pocock方法下的贝叶斯阴性符合率、Ⅰ类错误 Table 4 Bayesian negative coincidence rate and Type I error in the Pocock method

由以上结果，我们可以看出在Enthusiastic先验和Non-informative先验的条件下，贝叶斯期中分析的I类错误均明显大于0.05；其中在Non-informative先验条件下，5阶段在0.10以上。在Handicap先验和Skeptical 先验条件下，Ⅰ类错误均能控制在0.05左右。当总阶段数调整为3或者2时，贝叶斯期中分析阴性符合率和Ⅰ类错误与5阶段条件下的结果相似。

2.2 两总体均数不同

在两总体均数不同条件下，我们将成组序贯设计按以下参数进行设定（表5）。

表 5 O'Brien&Fleming和Pocock方法参数设定（两总体均数不等) Table 5 Parameter setting in the O' Brien&Fleming method and the Pocock method (two unequal population means)

在O_Set5_D1、O_Set5_D2、P_Set5_D1 和P_Set5_ D2参数设置下，几种常见先验分布的贝叶斯期中分析平均阶段数、平均样本量、功效和阳性符合率（表6，7）。

表 6 O'Brien&Fleming方法下的贝叶斯平均样本量、平均阶段数、阳性符合率和功效 Table 6 Average sample size, average stage, Bayesian positive coincidence rate and power in the O’Brien&Fleming method

表 7 Pocock方法下的贝叶斯平均样本量、平均阶段数、阳性符合率和功效 Table 7 Average sample size, average stage, Bayesian positive coincidence rate and power in the Pocock method

通过以上5 阶段的结果可以看出，当O'Brien&Fleming 功效在80%左右时，基于Handicap 先验和Skeptical 先验的贝叶斯功效相对较低，而基于Enthusiastic 先验和Non-informative 先验的贝叶斯功效明显较高。此外，几种先验分布的贝叶斯期中分析所需的平均阶段数和平均样本量均比O'Brien&Fleming 方法要低，而基于Handicap 先验和Skeptical 先验的贝叶斯期中分析均能提前终止试验。当Pocock 功效在80%时，Skeptical 和Handicap 两种先验分布的贝叶斯功效仍旧明显较低，而Enthusiastic先验和Non-informative 先验的贝叶斯功效均比Pocock 功效要高。与此同时，基于Handicap先验和Skeptical先验的贝叶斯期中分析相对于Pocock 方法而言并不能明显的提前终止试验。

3 讨论 3.1 两总体均数相同情况

从实际模拟效果来看，在O'Brien&Fleming 和Pocock期中分析方法下，使用Enthusiastic先验和Non-informative先验进行贝叶斯期中分析会增加I类错误的风险，而Handicap先验和Skeptical先验均可较好的控制Ⅰ类错误，因此这两种先验是比较合适的先验选择。

Skeptical 先验、Handicap 先验和Non-informative 先验均比Enthusiastic先验显著的增加贝叶斯阴性符合率，这意味着在原假设成立的条件下，基于Enthusiastic先验的贝叶斯期中分析结果很可能会和其他3种先验所得的结论不一致。这种现象提示我们，在保证试验因素能够继续进行研究的前提下，如果贝叶斯期中分析在Non-informative先验和Enthusiastic先验之间出现不一致的结论，则该研究可能是一个阴性研究^[12]。我们还发现基于Handicap先验和Skeptical先验的贝叶斯阴性符合率均接近100%，从先验分布选择的角度来说，Skeptical 先验是在阳性研究（Positive study）中建议使用的分布，这意味着其更倾向于“保守”，而Handicap先验的贝叶斯阴性符合率和Ⅰ类错误均与Skeptical先验相近，因此可认为这两种先验的“保守”程度是比较接近的。此外，在大样本的条件下，不同先验分布的后验概率分布之间通常只有很微小的差异，因此大样本条件下基于各种先验的贝叶斯期中分析就等同于敏感度分析，其目的是评估试验数据支持结论的强度^[12-13]。

3.2 两总体均数不同情况

从5阶段成组序贯设计所得的各种先验分布的功效结果来看，当O'Brien&Fleming 和Pocock 功效在80%时，基于Handicap 先验和Skeptical 先验的贝叶斯期中分析的功效相比较而言明显偏低；当O'Brien&Fleming功效逐渐增大时，以上两种先验分布的贝叶斯功效开始接近O'Brien&Fleming方法的功效。这是因为在参数相同条件下，如果先验方差较小，则基于该先验分布的贝叶斯期中分析更易得到较大的P值，这也意味着基于该先验的贝叶斯期中分析更加的保守，其功效也会相应的较低；如果两种先验方差的比值逐渐增大，两者功效之间的差异则会逐渐增大。然而随着O'Brien&Fleming 功效的逐渐提高，基于以上两种先验的贝叶斯功效也会逐渐接近O'Brien&Fleming的功效。这点也充分说明，在大样本条件下，不同先验分布下的后验概率分布之间通常只有微小的差异。此外，在O'Brien&Fleming和Pocock的功效较低的条件下，基于Handicap先验和Skeptical先验的贝叶斯阳性符合率均较低，这就意味着一方面基于这两种先验的贝叶斯期中分析的功效相对于Pocock 和O'Brien&Fleming 功效而言均较低；另一方面从频率学派角度来说，基于这两种先验的分析结果的可靠性也较低。值得一提的是，当O'Brien&Fleming 功效在80% 的时候，基于Skeptical先验和Non-informative先验的贝叶斯阳性符合率之间有较大差异。这种差异对于阳性研究来说不但意味着需要进行证实性的试验研究，而且也可能提示着试验因素可能没有被完全理解^[12]。

对于O'Brien&Fleming方法来说，早期是很难拒绝零假设的，这也使得贝叶斯期中分析能提前终止试验的特点显得非常突出。然而在Ⅲ期临床试验中，为了对药物作有效性评价，成组序贯设计又通常会选择应用O'Brien&Fleming方法^[14-15]，因此在验证有效性的临床试验中，当O'Brien&Fleming 方法的功效越高，基于Handicap先验和Skeptical先验的贝叶斯期中分析的功效就会越接近O'Brien&Fleming方法的功效，在功效较高且相近的条件下，基于Handicap 先验和Skeptical 先验的贝叶斯期中分析均能增加试验提前结束的可能性。另外，基于Handicap先验和Skeptical先验的贝叶斯期中分析方法相对于Pocock方法而言并不能明显提前终止试验。这是因为5阶段Pocock法允许试验早期以较小的临界值（相当于早期设置了较大的名义检验水平，即名义α₁ = 0.0169）来拒绝零假设，这也就意味着一些试验可能在早期（甚至在第1阶段）因为拒绝零假设而终止，正因为Pocock具有较早的拒绝H₀的特点，所以在提前终止试验方面贝叶斯期中分析相对于Pocock法而言并没有什么优势。

综上所述，当采用功效达到80%以上且早期不易拒绝零假设的传统成组序贯设计时，基于Skeptical先验和Handicap先验的贝叶斯期中分析既能使结果具有较强的可靠性，又能显著增加试验提前终止的可能性。

参考文献

[1]	Lin R, Yin G. Bayes factor and posterior probability: complementary statistical evidence to p-value[J]. Contemp Clin Trials,2015, 44 (1) : 33-5.
[2]	Freedman L. Bayesian statistical methods[J]. BMJ,1996, 313 (757) : 569-70.
[3]	Gao Z, Roy A, Tan M. Multistage adaptive biomarker-directed targeted design for randomized clinical trials[J]. Contemp Clin Trials,2015, 42 (1) : 119-31.
[4]	Lai TL, Liao OY, Kim DW. Group sequential designs for developing and testing biomarker-guided personalized therapies in comparative effectiveness research[J]. Contemp Clin Trials,2013, 36 (2) : 651-63. DOI: 10.1016/j.cct.2013.08.007.
[5]	Stephens RJ, Langley RE, Mulvenna P, et al. Interim results in clinical trials: do we need to keep all interim randomised clinical trial results confidential[J]. Lung Cancer,2014, 85 (2) : 116-8. DOI: 10.1016/j.lungcan.2014.05.012.
[6]	Kittelson JM, Emerson SS. A unifying family of group sequential test designs[J]. Biometrics,1999, 55 (3) : 874-82. DOI: 10.1111/j.0006-341X.1999.00874.x.
[7]	Wang SK, Tsiatis AA. Approximately optimal one-parameter boundaries for group sequential trials[J]. Biometrics,1987, 43 (1) : 193-9. DOI: 10.2307/2531959.
[8]	Berger J. The case for objective bayesian analysis[J]. Bayesian Anal,2006, 1 (3) : 385-402.
[9]	Daimon T. Predictive checking for Bayesian interim analyses in clinical trials[J]. Contemp Clin Trials,2008, 29 (5) : 740-50. DOI: 10.1016/j.cct.2008.05.005.
[10]	Spiegelhalter DJ, Abrams KR, Myles JP. Bayesian approaches to clinical trial and health-care evaluation[M]. Chichester: John Wiley&Sons, 2004 .
[11]	Bartroff J, Lai TL, Shih MC. Sequential experimentation in clinical trials[M]. New York: Springer, 2013 .
[12]	Wijeysundera DN, Austin PC, Hux JE, et al. Bayesian statistical inference enhances the interpretation of contemporary randomized controlled trials[J]. J Clin Epidemiol,2009, 62 (1) : 13-21. DOI: 10.1016/j.jclinepi.2008.07.006.
[13]	Homs MY, Steyerberg EW, Eijkenboom WM, et al. Single-dose brachytherapy versus metal stent placement for the palliation of dysphagia from oesophageal Cancer: multicentre randomised trial[J]. Lancet,2004, 364 (9444) : 1497-504. DOI: 10.1016/S0140-6736(04)17272-3.
[14]	Skovlund E. Repeated significance tests on accumulating survival data[J]. J Clin Epidemiol,1999, 52 (11) : 1083-8. DOI: 10.1016/S0895-4356(99)00090-6.
[15]	Choi SC. Interim analyses and early termination of clinical trials[J]. J Biopharm Stat,1997, 7 (4) : 533-43. DOI: 10.1080/10543409708835205.