样本量估计是研究设计的重要内容之一,样本量过高或过低都会影响研究的可靠性[1]。检验效能体现某项研究发现差异的能力[2]。理论检验效能是估计样本量的重要参数,为了使研究结果足够可靠,一般需先设定理论检验效能,进而估算样本量[3]。影响检验效能的因素众多,主要包括:检验水准ɑ、样本量以及其他一些因设计和研究目的不同而不同的因素[4],譬如预计总体标准差、容许误差等等[5]。本文着重考虑计量资料在多组、完全随机设计下,样本量对检验效能的影响。实验设计按样本量相等与否分为平衡设计与非平衡设计。现有文献认为平衡设计时检验效能最高[6],但在某些实际研究中,可能不易做到平衡设计,例如某组研究对象的来源有限、某组的干预手段费用较高等等。且现有研究尚未对非平衡设计下各组样本量与检验效能的关系进行全面探讨[7]。因此,本文拟通过蒙特卡罗模拟,研究定量资料完全随机非平衡设计下,各组样本量的变化对单因素方差分析以及Kruskal-Wallis H方法检验效能的影响,以使得当研究者存在某些条件限制的情况下,能以相对较少的总样本量或合理分配各组样本量,获得较为可靠的研究结果。
1 研究方法 1.1 样本量估计方法目前有较多软件可以进行样本量的估计,如SAS、nQuery advisor、STATA、R和PASS等[8]。本文利用SAS9.4中的proc power过程进行样本量估计[9]。
1.1.1 单因素方差分析的样本量估计原理单因素方差分析采用由Cohen [10-11]提出的基本公式:
$ {Power = p\left\{ {F(G - 1, N - G, \lambda ) \ge {F_{1 - \alpha }}(G - 1, N - G)} \right\}} $ | (1) |
$ {\lambda = N\left( {\frac{{\sum\nolimits_{i = 1}^G {{w_i}} {{\left( {{\mu _i} - \bar \mu } \right)}^2}}}{{{\sigma ^2}}}} \right)} $ | (2) |
$ {\bar \mu = \sum\nolimits_{i = 1}^G {{w_i}} \mu } $ | (3) |
式中,power为检验效能,G为样本组数,N为总样本量,μ为总体均数,σ为标准差,w为各组样本量的权重,wi=1时表示各样本量相等。通过SAS程序,模拟不同情况下样本量比值与检验效能的关系[12],参数设置如下:第一、二、三组均数依次增高,分别为μ1=3.5、μ2=4、μ3= 5,σ=4,α=0.05,检验效能为0.80、0.90,估计出平衡设计下所需总样本量[13]分别为402、525;此外,若标准差设置为σ=15,检验效能为0.90时,则所需总样本量为7326。
1.1.2 Kruskal-Wallis H检验的样本量估计原理通过SAS程序[14]从正态分布中抽样生成3组样本[15],进行Kruskal-Wallis H检验[16-17],模拟不同情况下样本量比值与检验效能的关系。各参数设置[18]如下:第1、2、3组均数分别为μ1=3.5、μ2=4、μ3=5,σ=4,α=0.05,检验效能为0.80、0.90,估计出平衡设计下所需总样本量分别为255、324;此外,若标准差设置为σ=6,检验效能为0.90时,则所需总样本量为720。
1.2 检验效能估计方法研究设计中样本量应保证分析方法达到一定的检验效能,否则,当P>0.05时,所谓的组间差别无统计学意义,可能是由检验效能过低引起的,从而错过了发现“阳性结果”的机会[19]。因此尽管统计学界尚有争议,一些学者和期刊仍建议在得到“阴性结果”的同时应注明其检验效能,使读者了解到更多的统计信息[20]。一般来说,检验效能不宜低于0.80 [21],本文选取0.80和0.90作为检验效能的预设值来估计样本量,在此基础上通过蒙特卡罗模拟,重复1000次检验过程得出检验效能的估计值。
2 模拟结果 2.1 3组样本的单因素方差分析 2.1.1 总样本量固定基于前述单因素方差分析中样本量估计的参数设置,模拟结果如表 1所示。单独增加第1组或第2组样本量所占比例,检验效能逐渐减小,且第2组样本占比增加所引起的检验效能降低幅度要大于第1组(第2~5行);增加第3组样本所占比例时,检验效能先增加,后降低(第6~8行);同时改变两组的样本量占比时,若其中涉及第2组占比的增加会导致检验效能降低(第9~10行),若同时增加第1、3组的占比,检验效能增加,且增幅超过单独增加第3组比例时的增幅。总之,当第3组样本量增加或第1和第3组样本量同时增加时,检验效能均增加,但当组间样本量差异过大,比如样本量比值为1: 1: 4或20: 1: 20时,则增幅回落甚至低于平衡设计时所设定检验效能。
以前述平衡设计下总样本量为402的参数设置为基础,单独增加某组的样本量,检验效能的变化情况见表 2。
单独增加某组样本量时,检验效能均随样本量的增加而提高,且检验效能的增加幅度与增加样本量的组别有关,由高到低,分别是单独增加第3组、第1组、第2组样本量(表 2)。
2.2 三组样本的Kruskal-Wallis H检验 2.2.1 总样本量固定基于前述Kruskal-Wallis H检验样本量估计的参数设置,模拟结果如表 3所示。无论增加一组还是同时增加两组样本量占比,只要牵涉到第2组的样本量占比增加,则检验效能均降低,且降幅较大;第1或第3组样本量占比单独增加时,检验效能随占比的增加,可能先升高(第2行、第6行),然后降低(第3行、第7行);若同时增加第1、3组的占比,则占比越大,检验效能越高(表 3最后4行),即使差异较大(如20:1:20时),仍有较大增幅。
以前述平衡设计下总样本量为255的参数设置为基础,单独增加某组的样本量,检验效能的变化情况见表 4。
样本总量不固定时,检验效能随任一组样本量的增加而提高[22],且检验效能的增加幅度与增加样本量的组别有关。其中单独增加第3组、第一组时检验效能的增幅相对较高,单独增加第2组样本量所导致的检验效能增幅较小。但是增加总样本量所导致的检验效能增幅与固定总样本量条件下同时增加第1和第3组样本量近似(表 3第12~14行)。
3 讨论本研究针对定量资料非平衡、完全随机设计,分别在固定与不固定总样本量情形下,通过模拟研究,探讨了各组的样本量比值对单因素方差分析、Kruskal-Wallis H检验的检验效能的影响。
对于单因素方差分析,(1)总样本量固定时(表 1),当第3组样本量增加或第1、第3组样本量同时增加时,检验效能均增加。涉及第2组样本量增加的情形会使得检验效能降低。原因是当总样本量和标准差固定时,影响检验效能的因素为各组均值与总均值差值平方
对于Kruskal-Wallis H检验,(1)总样本量固定时(表 3),无论增加一组还是同时增加两组样本量占比,只要牵涉第2组的样本量占比增加,则检验效能降低,且降幅较大;第1或第3组样本量占比单独增加时,检验效能随占比的增加,可能先升高,后降低;若同时增加第1、3组的占比,则占比越大,检验效能越高,即使组间样本量差异较大时(如20: 1: 20),仍有较大增幅;(2)总样本量不固定时(表 4),类似单因素方差分析,检验效能的增幅与增加样本量的组别有关。但是增加总样本量所导致的检验效能增幅与固定总样本量条件下,增加均方误较大组样本量近似。因此,为提高检验效能,可考虑提高均方误较大组样本量占比,同时又不必增加总样本量。
我们的前期研究仅对非平衡设计下的单因素方差分析中样本量与检验效能的关系进行了探讨[24],本文对包含Kruskal-Wallis H检验在内的两种方法均进行了研究,显示两种方法的结果略有不同:(1)总样本量固定时,若同时增加两个均方误较大组的样本量占比,虽然两种检验方法的检验效能均有增加,但是对于单因素方差分析,组间样本量差异不宜太大,而Kruskal-Wallis H检验不受此影响;(2)总样本量不固定时,单因素方差分析中,增加均方误最大组的样本量导致的检验效能增幅最大,而Kruskal-Wallis H检验中,均方误较大组各自所导致的检验效能增幅差别不明显;(3) Kruskal-Wallis H检验中,不固定总样本量时,单独增加较大均方误所在组的样本量,与固定总样本量条件下增加较大均方误所在组样本量占比所引起的检验效能的增幅相当,但是单因素方差分析仍然是增加总样本量所引起的检验效能增幅更大。
总之,当总样本量固定时,可根据文献或预实验结果,适当减少预计均方误较小组的样本量、增加均方误较大组的样本量、且最好是同时增加多个均方误较大组的样本量占比;当总样本量不固定,增加均方误较大组的样本量可使得检验效能的增幅更明显;对于KruskalWallis H检验,相较于增加总样本量,通过调整各组样本量比值也能获得较高的检验效能,且更具有成本优势。因此,为了节约实验资源,避免样本量太大而造成浪费[25],对于Kruskal-Wallis H检验,建议优先考虑通过调整各组样本比来提高检验效能,而非直接增加样本量。若出于成本、时间等限制需要减少样本量时,建议优先减少均方误较小组的样本量,使其对检验效能的影响降到最低。
本研究尚有以下不足:在针对Kruskal-Wallis H检验的模拟研究中,均基于从正态分布抽样产生数据,但在实际情况下,Kruskal-Wallis H检验可适用于各种分布情形。在其他各种分布、甚至分布形态不明的情形下是否仍然具有与本次研究相同的结论,尚需进一步探讨。
[1] |
Hogan JW, Peipert JF. Power and Sample Size[J]. JAVMA, 1990, 197(7): 38-40. |
[2] |
钱俊, 陈平雁. 假设检验中计算观察检验效能的意义的探讨[J]. 中国卫生统计, 2005, 22(3): 133-7. DOI:10.3969/j.issn.1002-3674.2005.03.002 |
[3] |
余红梅. 实验设计样本含量与检验效能估计的讨论[J]. 中国卫生统计, 2005, 22(1): 51-4. DOI:10.3969/j.issn.1002-3674.2005.01.019 |
[4] |
徐勇勇, 孙振球. 医学统计学[M]. 北京: 人民卫生出版社, 2014.
|
[5] |
于莉莉.临床试验中区间检验的样本量与检验效能估计[D].西安: 第四军医大学, 2004. http://cdmd.cnki.com.cn/article/cdmd-90026-2004080367.htm
|
[6] |
高洪, 孙平辉. 假设检验中检验效能的研究进展[J]. 中国热带医学, 2007, 7(2): 270-2. DOI:10.3969/j.issn.1009-9727.2007.02.053 |
[7] |
陈平雁. 临床试验中样本量确定的统计学考虑[J]. 中国卫生统计, 2015, 32(4): 727-31, 733. |
[8] |
林洁, 孙志明. SAS、PASS、Stata三种常用软件样本量计算方法及结果差异的比较[J]. 中国医药导报, 2015, 12(18): 133-7. |
[9] |
姚嵩坡, 刘盛元, 王滨有. 假设检验中检验效能的计算及SAS实现[J]. 中国卫生统计, 2010, 27(4): 434-6. DOI:10.3969/j.issn.1002-3674.2010.04.039 |
[10] |
Cohen J. Eta-squared and partial eta-squared in fixed factor anova designs[J]. Educ Psychol Meas, 1973, 33(1): 107-12. DOI:10.1177/001316447303300111 |
[11] |
Hoenig JM, Heisey DM. The abuse of power: The pervasive fallacy of power calculations for data analysis[J]. Am Stat, 2001, 55(1): 19-24. DOI:10.1198/000313001300339897 |
[12] |
段重阳, 吕朵, 陈平雁. 样本量估计及其在nQuery和SAS软件上的实现:均数比较(四[J]. 中国卫生统计, 2012, 29(2): 279-83. DOI:10.3969/j.issn.1002-3674.2012.02.044 |
[13] |
Lenth RV. Some practical guidelines for effective sample size determination[J]. Am Stat, 2001, 55(3): 187-93. DOI:10.1198/000313001317098149 |
[14] |
丁元林, 孔丹莉. 多个样本及其两两比较的秩和检验SAS程序[J]. 中国卫生统计, 2002, 19(5): 313-4. DOI:10.3969/j.issn.1002-3674.2002.05.021 |
[15] |
蔡伟斌. Monte Carlo模拟在Wilcoxon秩和检验样本量估计中的应用及其SAS实现[D].武汉: 华中科技大学, 2012. http://cdmd.cnki.com.cn/Article/CDMD-10487-1014028323.htm
|
[16] |
Shieh G, Jan S, Randles RH. On power and sample size determinations for the wilcoxon-mann-whitney test[J]. J Nonparametric Stat, 2006, 18(1): 33-43. DOI:10.1080/10485250500473099 |
[17] |
Berry KJ, Jr MP. Exact and Monte carlo resampling procedures for the wilcoxon-mann-whitney and kruskal-wallis tests[J]. Perceptual Motor Skills, 2000, 91(3 Pt 1): 749. |
[18] |
张超, 胡军, 陈平雁. 完全随机设计两样本比较的非参数方法的检验功效比较[J]. 中国卫生统计, 2008, 25(3): 230-2, 235. DOI:10.3969/j.issn.1002-3674.2008.03.002 |
[19] |
颜杰, 李彩霞, 方积乾, 等. 完全随机设计两组t检验与秩和检验的功效比较[J]. 中国卫生统计, 2004, 21(1): 10-3. DOI:10.3969/j.issn.1002-3674.2004.01.003 |
[20] |
丁元林, 孔丹莉. 检验效能在临床试验研究阴性结果评价中的应用[J]. 医学新知杂志, 1997, 7(2): 95-6. |
[21] |
Lachin JM. Introduction to sample size determination and power analysis for clinical trials[J]. Control Clin Trials, 1981, 2(2): 93-113. |
[22] |
Mumby PJ. Statistical power of non-parametric tests: a quick guide for designing sampling strategies[J]. Mar Pollut Bull, 2002, 44(1): 85-7. DOI:10.1016/S0025-326X(01)00097-2 |
[23] |
Lowerre JM. On the mean square error of parameter estimates for some biased estimators[J]. Technometrics, 1974, 16(3): 461-4. DOI:10.1080/00401706.1974.10489217 |
[24] |
王星杰, 汪玉风, 潘海燕, 等. 非平衡设计对检验效能的影响[J]. 中国卫生统计, 2019, 36(4): 623-6. |
[25] |
Lewis JA. Statistical principles for clinical trials (ICH E9): an introductory note on an international guideline[J]. Stat Med, 1999, 18(15): 1903-42. DOI:10.1002/(SICI)1097-0258(19990815)18:15<1903::AID-SIM188>3.0.CO;2-F |