科研星球

非劣效设计临床试验的相关问题

首先,设定非劣效性界值是非劣效临床试验设计中非常重要的挑战,我们在前述文章中已经做了详细介绍。本文中,我们规定I表示试验组干预措施,C表示阳性对照或标准治疗,P表示安慰剂或不治疗,那么我们可以从非劣效性试验中估算出I对C的相对危险度(Relative Risk, RR(I/C))或绝对差值。在研究设计阶段,必须事先确立效应指标,因为样本量估算、中期监测和最终分析都取决于该效应指标。任何临床试验都依赖于足够的样本量来确证研究假设,无论是优效性还是非劣效性设计。对于优效设计试验,样本量不足不利于与发现差异;但对于非劣效性试验,样本量不足有利于证实非劣效性假设。可见问题的难点在于到底设置一个较小的非劣效界值还是设置一个过于宽松的非劣效性界值?设置界值过小导致估算的样本量要求遥不可及;设置界值过于宽松时又使样本量极具诱惑力,但试验结果不具有足够的效力。


第二个挑战是需要确定试验组干预措施是否能达到非劣效性的标准,而其中一部分的工作则是需要证明估算的95%置信区间的上限小于非劣效性界值。Pocock 和 Ware的文章阐述了这个问题 [2],其核心内容如图1所示,我们以相对指标RR为例(此处RR为低优指标,即RR越小代表试验组疗效越好),如果RR的95%置信区间的上限小于1,则存在不同程度的优效证据(案例A)。在非劣效性临床试验中,如果RR的95%置信区间与无效线相交且其上限小于非劣效性界值δ,则表示该数据支持非劣效(案例B和C)。如果其上限大于非劣效性界值δ,那数据则不支持非劣效(案例D和E)。因此,案例D所代表研究设计必须使用充足的样本量和效能,以排除非劣效性的可能性。尽管在临床设计开始前我们可能并没有预料到这个问题,但非劣效性临床试验也可能提示该干预方式可能对患者有害(案例E)。

640.jpg

图1. 一系列优效和非劣效性临床试验的相对风险度RR及95%可信区间。案例A、B、C、D、E分别表示优效、不劣于、不劣于、不确定、劣效。


非劣效性分析第一个目的是要证明新的干预措施是否能达到非劣效性的标准,有时也是为了佐证新的干预措施可能优于安慰剂或不治疗,也就是计算RR(I/P)的估计值。从统计分析看,可以通过计算RR(I/P)=RR(I/C)*RR(C/P)来实现。然而,要证明这两者间的关联,我们至少需要满足以下两个非常关键的假设:(1) 治疗的效果不会随着时间推移而改变,(2) 使用安慰剂的对照组受试者与目前进行治疗的受试者的数量有相关性。但是,这些假设很难,甚至是不可能成立的。


我们重点讨论非劣效设计的第一个目的,即确定干预组与对照组的比较是否小于非劣效性界值δ。假设,在临床试验中选择了一个阳性对照组,而临床试验在实施过程中要严格遵守目前已有的最佳临床证据,如果新干预措施与原干预措施一样有效或更有效,将能够确定新干预措施对患者有益。否则,如果将新干预措施与有缺陷的或者有不足的现有治疗方法做对照,那么,会很容易让新干预措施的效果看上去似乎与对照组等效,甚至优于对照组。依从性差和管理欠缺将使结果更倾向于在非劣效性试验中的新干预措施,而不像在优效性试验中,排斥新干预措施。因此,在评判临床试验的时候,必须收集足够的遵守试验方案的信息,以便进行关键评估 [3]。在这种情况下,依从不仅仅意味着参与者是否服用了所有或几乎所有的干预药物和对照药物。参与者服用的其他伴随药物也是一个考虑因素。如果存在很大的不平衡,就很难解释试验结果。另一个关键因素是,所选择的结局指标是否能够真正衡量新干预措施和对照组的效果。这称为检验灵敏度。因此,无论有没有意识到这个问题,研究者通常可能会选择一个无论使用什么研究干预措施都不会改变的结果,从而保证非劣效性界值δ的实现。结果应该与阳性对照组对比安慰剂组临床试验中的结果相类似。


此外,目前存在的一个争论是,即“意向性分析”或“符合治疗方案分析”是否最适合非劣效性性设计试验。如果使用意向性分析,则不依从性会稀释可能存在的任何差异,从而产生偏向非劣效的偏倚。“符合治疗方案分析”仅比较那些善于坚持的人,或者至少采取了一些预先定义的干预措施,因此更接近于测试真实效果。然而,通过干预措施依从性来分析试验可能存在偏倚,其方向无法预测。因此,我们不建议进行这种分析,因为偏倚及其方向的不确定性,而是建议设计一个试验,以尽量减少依从偏离。新干预的真正比较可能介于“意向性分析”或“符合治疗方案分析”之间,但没有可靠的方法来分离出这一估计。如果两种分析方法都确认非劣效性,说明结果稳健,假设非劣效性差值合理的前提下,结论就更有说服力。


有许多非劣效性试验的例子,但我们将用一个例子来说明存在的挑战。口服凝血酶抑制剂预防脑卒中试验(SPORTIF-V)中 [4],使用ORal血红蛋白抑制剂进行中风预防,将新干预西梅莱加特兰与标准华法林干预进行比较,中风发病率作为主要结局。涉及若干问题。首先,没有非常好的华法林与安慰剂试验来设置非劣效性界值。其次,试验使用绝对差值作为效应指标,假设事件发生率在3%左右,但观察到事件发生率不到一半。因此,由于事件发生率较小,预先确定为2%的非劣效性界值太大。如果假设观测到的事件率为1.5%,则预先确定界值会少得多,可能接近1%。观察到的中风率为1.2%,在西梅莱加特兰组为1.6%,95%的CI为-0.13%至1.03%,这符合非劣效性界值初始幅度。然而,这不足以达到1%的界值。因此,即使可以提前设置界值,结果也可能使假设及界值本身无效。


因此,非劣效性试验设计、分析与结果的报告比优效试验更为复杂,因为所有假设都必须如此仔细和明确地阐明并分析。


参考文献

[1] L.M. Friedman et al. Fundamentals of Clinical Trials (5th edition), Springer International Publishing Switzerland, 2015.

[2] Pocock SJ, Ware JH. Translating statistical findings into plain English. Lancet 2009; 373: 1926-1928.

[3]《药物临床试验非劣效设计指导原则》, 国家药品监督管理局药品审评中心, 2020.

[4] SPORTIF Executive Steering Committee for the SPORTIF. Ximelagatran vs warfarinfor stroke prevention in patients with nonvalvular atrial fibrillation: A randomized trial. JAMA 2005; 293: 690-698.


没有账号?