科研星球

临床回顾性研究的十大常见错误及案例分析

本文翻译自《The retrospective chart review: important methodological considerations》。

0.png

回顾性数据记录(Retrospective Chart Review, RCR)研究也称为医疗记录回顾性研究,是研究设计的一种。该类研究通过预先记录以患者为中心的数据以回答一个或多个研究问题。RCR可广泛应用于许多卫生保健方向的研究,如流行病学、质量评估、专业教育和住院医师培训、住院护理和临床研究等。RCR所使用的数据有多种来源:如电子数据库、诊断检测结果和保健服务提供者的信息等。此外,RCR中有研究意义的结果还可直接用于指导后续的前瞻性研究。有学者评估了2006年RCR报告的方法学严谨性,结果显示大多数研究的方法学设计并不规范。


由于方法学是同行评议文章的重点,为了改善RCR研究的质量,本文将讨论回顾性记录分析中发现的十个常见方法错误和不足,并通过案例分析来提出建议或指明可行的资源,以供研究者在设计、实施或评估回顾性图表分析时作为“最佳实践”指南参考。

 

1.  第一个不足:未明确定义并清晰表达研究问题

 

设计临床回顾性数据分析(RCR)方案的第一步是基于研究结果来制定一系列供回答的研究问题。研究问题应是符合逻辑的,问题的答案选项之间应有明确已知/未知或可信/不可信的区别。研究问题来源于RCR研究目的并可影响研究设计和数据分析,因此需要反复斟酌研究问题的制定。

   

本文在此介绍一种设计和阐述研究问题的框架,以供读者参考。研究问题通常可以分为三类,描述类问题、关系类问题、比较类问题,下面将分别对三类问题展开分析。

 

描述类问题在RCR中较为常见,这类问题描述了正在发生或已存在的事情。发病率和患病率研究属于描述性研究。我们可以提出这样一个研究问题,“2021年12月南非的新冠肺炎发病率是多少?“这个问题的答案可以用百分比来表示。再如”比较居家隔离和住院患者的疾病特征和结局?“描述性问题的结果通常以比值、百分比、频数、集中趋势指标(均属、中位数、众数),离散趋势指标(标准差、极差)、图表等。

 

关系类问题主要用于询问现象之间如何产生关联。如,我们可以这么提问:“南非豪登省当地居民的反对疫苗情绪和新冠感染率之间有何关系?”为回答这个问题,我们需要从中收集当地居民对疫苗接种的态度和医疗机构中新冠核酸检测记录。关系类问题的答案通常以相关系数的形式呈现,而如何选择合适的相关系数类型取决于数据的性质,如数据的类型(连续性数据、等级数据、分类数据)以及数据的分布(正态、偏态)。

 

比较类问题主要用于询问一个因变量中不同组别的自变量差异。不同的分组即代表自变量的不同取值,而用于比较组间差异的指标则为因变量。例如“全程接种BNT162b2疫苗志愿者的血清对不同变异株的中和活性是否有区别?”。该问题中自变量为变异株,可以是Alpha株、Beta株、Omicron株,而血清中和活性为因变量。血清对不同变异株中和活性的比较,即为自变量在不同取值情况下的因变量比较。这类问题常通过比较组间差异的显著性来回答。

 

《Exploringomissions in nursing care using retrospective chart review:An observational study》是一篇采用RCR描述护理工作遗漏的特点和频率的研究,刊登在了护理权威杂志International Journal of Nursing Studies上[1]。在探讨探究护理工作遗漏的特点和频率的RCR研究中,主要是描述类的文章,作者根据研究目的提出了两个关键的研究问题。


1. How important was it to document this care activity?

 (4-point Likert scale: 0. not applicable 1.somewhat important; 2. important; 3. very important)

2. Had the activity been omitted?

 (Trichotomous: yes/no/partly)


问题1的设置在于询问患者对于某些护理行为重要性的认同感,问题2的设置将得到患者接受该护理行为的频率。基于这两个问题得到的数据,即可提取出数据记录。


0 (1).png


图1. 护理行为与患者期待人数、遗漏频率表

 

 

2.  第二个不足:未考虑到抽样环节的优先性

 

在抽样环节有两个重要问题需要考虑:样本量和抽样方法。


检验效能(Power of test)可用于决定研究所需的样本量。检验效能是指当备择假设H1为真,而拒接原假设H0的概率,即当两总体确有差别时,按规定的检验水准α能够发现该差别的能力。例如,在刚才的例子中我们提出“全程接种BNT162b2疫苗志愿者的血清对不同变异株的中和活性是否有区别?“这个问题。由于零假设H0总是设为“无效假设”,反映无差异。该问题中H0表示为“血清对不同变异株的中和活性相同“当然,研究人员往往对拒绝无效假设而接受备择假设更感兴趣(血清对不同变异株的中和活性有差异)。因此,我们需要足够的检验效能来检测出不同变异株之间中和活性的统计学差异。

 

检验效能与样本量的大小有关,大样本研究具有更大的检验效能,因此在大型人群研究中,即使是组间细小的差异也可具有统计学意义。对于RCR研究来说,足够的检验效能同样需要足够数量的患者信息记录。许多统计学教材和期刊都有描述如何进行检验效能分析。G*Power是一款免费的检验效能分析软件,应用广泛且操作难度较低。Faul等人[2]在其论著中更为详细地描述了该软件的使用。

 

在RCR研究中,抽样方法即为获取患者信息的策略。在此我们将主要介绍三种抽样方法。


RCR中最常用的抽样方法为方便抽样,该方法有利于研究人员使用他们所掌握的医疗信息。方便抽样在处理较罕见的病例或研究样本量较小时尤为实用,但也会影响研究结果的可推广性。


第二种抽样方法为随机抽样,是抽样方法中的金标准。在研究人群中依据某种规则进行随机抽样,使得每份医疗信息都有同等概率被抽中。随机抽样减少了抽样误差,使得研究人员可以获得更具代表性的样本,更真实地反映研究结果与抽样人群的关系。但该方法适合在研究者有能力获得大量医疗信息的前提下进行。


第三种方法为系统抽样,研究人员每隔K个抽样距离抽出一个医疗记录。该方法并非真正的随机抽样,但同样需要大量的医疗信息。


综上,当研究人员有能力获取大量研究疾病信息或医疗信息的情况下,随机抽样是首选方法,在信息有限的情况下,方便抽样将更为实用。

 

3.  第三个不足:未充分将研究变量可操作化

 

操作化是指“将一个概念转化为其表现形式的行为”。这个术语被广泛用于社会科学研究。


例如在“美国东北部住院医师职业倦怠与自杀意念之间的关系如何?”这个问题中,我们需要根据“职业倦怠”的专业定义,将其拓展为多维度的概念,包括人格解体的感觉、个人成就感的降低和情绪上的疲惫和情绪衰竭。为了让倦怠的维度概念变得操作化,Maslach等人创建了Maslach 职业倦怠量表,这也是职业倦怠研究中最广泛使用的倦怠评估量表。


在RCR研究中,研究变量的操作化需要两个步骤,第一步是识别和定义研究变量。在某些情况下,这个过程可能是很直接的。例如“新冠疫苗接种对疫情防控是否有意义?(有意义/无意义)”问题中,研究对象应能较好地理解和判断新冠疫苗接种这一概念。但在某些情况下,很难对研究变量进行清晰的界定,例如“疼痛”,是一种主观的体验并受情绪的影响。不同患者对疼痛的描述可以说是千奇百怪。因此如何将疼痛在特定研究中操作化显得尤为重要。


研究变量操作化的第二步是进行文献回顾以观察其他研究在类似或相关工作中如何对这些变量操作化。例如疼痛这一变量,我们通过文献回顾可能会发现,既往的疼痛研究常采用疼痛程度或数字分级法、视觉模拟法或McGill疼痛量表来操作这个变量。此时我们可以评估这些方法是否适用于解决我们的研究问题。通过这两个步骤,RCR研究可以显著提高调查变量的信度和效度。

 

4.  第四个不足:未培训和监督数据提取员

 

数据提取员负责审查和编码每个记录,在数据质量方面扮演着重要角色。数据提取员必须准确、一致地执行编码,否则可能降低数据的有效性。在进行任何数据提取之前,必须针对数据提取员进行详细的培训,包括如何审核变量、程序手册和数据提取表。在这次培训之后,数据提取员应对几个患者记录进行编码实践。研究人员应仔细验证这些编码以确保准确性。任何编码问题都应与数据提取员共同讨论解决。培训完成后,研究者还需要对数据提取员进行持续监督,确保提取过程以准确性和及时性。在提取的初始阶段,有必要安排一次与数据提取员的会议来说明和讨论在编码过程中可能发生的任何问题。

 

除了确保数据提取的准确性、一致性和及时性之外,数据提取员还必须保持客观。建议在研究过程对数据提取员实施盲法,以使其对研究的目的和研究试图解决的研究问题保持盲态。由于可能受研究者的观点所影响,处于盲态下的数据提取员可减少其作为评价者造成的信息提取偏倚。

 

5.  第五个错误:未使用标准化数据提取表

 

在进行RCR研究时,数据提取表有助于确保提取策略的一致性,减少数据收集时的错误。数据提取表可以是电子表格或纸质表,这两种提取表关键在于都要有类似原始图表格式的逻辑性以及简洁地反映研究中各种变量的操作化。

 

纸质表格性价比高且更容易在多个编码现场使用。但如果研究者选择使用纸质表格,应提供数据记录和编码的具体指南,否则结构固定且打印好的数据表可能没有空余的地方供编码员解释数据采集的过程。然而,纸质表格亦有缺点,当考虑到笔迹问题,复制问题,表单储存和维护问题时纸质表格就显得效率不足。

 

在大型的RCR研究中,电子表格适合中心化的数据存储要求,在减少数据输入和复制时错误、减少数据复制和输出的步骤等方面具有独特的优势。此外,电子表格通常由计算机软件创建,如(Microsoft Access),限制了编码员的解释余地,并可设计为只能对变量作出特定的编码。


无论选择何种提取表形式,都应对编码员进行充分的培训、解读变量以及阐述预期的变量编码效果。为进一步减少编码错误,还可为编码设置准确的字符宽度要求,以强制编码员输入特定字符宽度的数字,消除编码过程产生的误差。此外,提前进行编码测试可以确保所有的提取表中选项都有对应的编码。在某些情况下,某些特定的选项可能报告的频率较低,这些选项应合并起来以便于编码。在测试过程中,可以发现许多错误和缺漏,对于规范编码具有重要意义。


6.第六个不足:未撰写详细的数据提取流程手册


除数据提取表外,研究者还应为数据提取员编写详细的提取流程手册,以确保所有审查员和编码员执行过程中的准确性、可靠性和一致性。该手册应详尽描述和解释研究Protocol中的数据提取步骤。尽可能使用图表来罗列提取表中的元素、所需数据和变量在医疗记录中的位置以及可填入提取表中的回答选项。此外,一些与数据变量分析和表格填写有关的额外信息,如术语表、数据缩写及解释、同义词、符号等也应写入该手册中。


标准化的编码过程是确保研究数据质量的关键。如果可以,研究者应根据可预见的编码情况来绘制决策树。如果发生未预见的编码情况,则应在手册中更新决策树,以便之后编码员可依据同样的决策逻辑来编码。该决策树法尤其适合多中心、多编码员的RCR研究。


7.第七个不足:未明确阐述研究纳入和排除标准


纳入和排除标准是研究Protocols和数据提取流程手册中的必备内容。严格的研究方法要求病例在纳入前必须满足Protocols和提取手册中列出的特定标准。一般来说,只要确定了研究问题和研究变量的操作化,便可确定选择何种病例记录。当然,回顾其他研究的方法和仔细审查患者记录后,也有助于帮助撰写标准。


本文建议的排除标准可有以下几点:

1.     患者记录中缺少足够变量;

2.     患者记录中存在可降低数据信度的混杂因素;

3.     患者记录中存在过多易混淆并发症。


不管是否是RCR研究,protocol的内容都应表述清晰,数据提取员须接受判断排纳标准的训练;被排除的记录应由提取员和研究者重新核检以明确其不满足的纳入标准或满足的排除标准。


8.第八个不足:未计算评分者内信度和评分者间信度


评分者内信度(Intra­rater)和评分者间信度(Inter­rater)是用于估计评分者自身报告一致性和评分者之间报告一致性的指标。RCR研究中,评分者内信度评估了同一提取员记录同一类变量的差异,而评分者间信度评估了两个及以上提取员提取信息保持一致的能力。评分者间信度还可用于衡量编码后的变量数据之间的错误量。


评分者间信度应计算Cohen’s kappaκ)值来衡量不同编码员的编码一致性。相较于直接计算不同编码员结果差异的百分比,κ值可以将编码员之间的一致程度与可能的总一致程度进行比较,并限制偶然一致的可能性。在Online KappaCalculator网站(justusrandolph.net))中,你可以参考提供的使用方法来计算κ值。κ的取值范围为[-11]κ=0表明一致性为偶然因素导致;κ值<0表明一致性的差异比偶然因素更大;一般来说,RCR研究的κ值应大于+0.6


评分者内信度可使用组内相关系数(intraclass correlation进行比较。提取员需对预先确定的数量随机的记录进行重新编码,以评估编码差异并计算组内相关系数。值得注意的是,编码员的内信度很可能受以往数据编码的影响而降低。组内相关系数可使用SPSSR语言或Microsoft Excel进行计算,感兴趣的读者可以自行搜索计算方法。


9.第九个不足:未进行小规模测试


小规模测试指通过进行小样本量试验评估RCR研究设计的可行性,验证研究方法和调查流程。具体如探究数据提取的可行性、病例记录中变量信息缺失的程度,熟悉检索记录流程,测试纳入和排除标准,评估抽样方法的可行性等。一般来说,推荐小规模测试的样本量设为正式研究的10%,并应依据方案中规定的抽样方法进行。在小规模测试的过程中,数据提取员可熟悉编码变量的过程,评估变量编码规则的合理性。


10.第十个不足:未考虑保密性和伦理性

医学研究的保密性和伦理性向来受到监管机构的重视,并作为项目审核的一部分决定了研究能否开展。由于RCR研究需收集现有医疗信息,因此在研究Protocol中应充分考虑对患者隐私信息的保密和尊重,接受伦理审查机构的审核和指导。




 

小结:


本文简单介绍了RCR研究的概念和原理,分析了五种RCR研究常见的错误并提供了相应的建议。若读者想了解RCR研究的基础概念和流程,可阅读Andrew Worster MD, MSc的论著[3]




参考文献

[1]  Saar L, Unbeck M, Bachnick S, et al. Exploringomissions in nursing care using retrospective chart review: An observationalstudy [J]. International Journal of Nursing Studies, 2021, 122(104009.DOI: 10.1016/j.ijnurstu.2021.104009

[2]Faul F, Erdfelder E, LangA-G, et al. G*Power 3: A flexible statistical power analysis program for thesocial, behavioral, and biomedical sciences [J]. Behavior Research Methods,2007, 39(2): 175-91.DOI: 10.3758/BF03193146

[3]  Worster A, Haines T.Advanced statistics: Understanding Medical Record Review (MRR) Studies [J].Academic Emergency Medicine, 2004, 11(2): 187-92.DOI: 10.1111/j.1553-2712.2004.tb01433.x


本文翻译自The retrospective chart review: important methodological considerations


没有账号?