證據等級 - Wikiwand

证据等级，或称证据金字塔（英语：levels of evidence，常以缩写LOE代表；或英语：hierarchy of evidence），系指以启发法为科学研究结果的相对强度来进行排名。针对大型流行病学研究的相对强度排名已广获普遍认可；目前用以评估医学证据（英语：evidence）所提出的等级，已超过80种以上^[1]。研究的设计方法和及试验指标也会影响证据强度；前者例如特定病人的案例报告（英语：case report）或依盲法进行的随机对照试验，后者例如存活率或生活品质。临床研究中，治疗效能的最佳证据，主要就是基于统整有多篇随机对照实验的统合分析^[2]^[3]。统合了高品质的完整随机对照试验之系统性回顾，和囊括了治疗副作用的高品质完整观察型研究之系统性回顾，二者相较的话，其等级可评估为相同重要。前者的例子即为考科蓝实证医学资料库所发表的文章^[4]。实证应用中经常应用证据等级，并将其整合至实证医学之中。

Remove ads

定义

2014年，斯特根加（Stegenga）将证据金字塔定义为“依各种研究方法所受到潜在的系统误差之影响的大小，来进行证据等级排序。”在此证据金字塔中，位居顶端的研究方法，在经验证的医学处置中对假设性的疗效，所受系统性偏误影响最小，或者说它的内部效度最高^[5]^:313。1997年，格林哈尔（Greenhalgh）称证据品质金字塔为“在临床处置的决策时，所依循的原始研究，依不同的研究方法类型，分别代表的相对权重^[6]。”

美国国家癌症研究所将证据等级定义为“一种排名系统，用来描述临床试验或研究的结果强度。研究设计（英语：study design）的方法和所测量的临床指标，都会影响到证据强度^[7]。”

例子

现今已经提出许多评估证据等级的方法，但用于评估研究品质的类似草案仍在发展中。目前可用的草案较少关注于结果研究比较关注于“治疗效能”（efficacy，即理想状态下，治疗得到的结果）或是“治疗效益”（effectiveness，在一般日常、可预期状态下治疗得到的结果）。

建议强度（GRADE）

建议强度评比系统，全称“建议强度的评估、发展和评价分级”（GRADE，Grading of Recommendations Assessment, Development and Evaluation）是一种评估证据确定性（也称为“证据品质”或“对预估效果的可信度”）和建议强度的方法^[8]。建议强度评比始于2000年，由方法学家、指引制定者、生物统计学家、临床医生、公共卫生科学家和其他对此议题有兴趣的成员组成。

超过100个组织（包括世界卫生组织、英国国家健康与照顾卓越研究院（英语：National Institute for Health and Care Excellence）（NICE）、加拿大卫生保健预防工作小组（the Canadian Task Force for Preventive Health Care）、哥伦比亚卫生和社会保障部（英语：Ministry of Health and Social Protection (Colombia)）等）认同且已使用或正在使用建议强度评比系统来评估证据品质和卫生保健建议的强度^[9]^[10]。

建议强度评比系统为证据品质的评分如下：^[11]^[12]

高	非常有把握观察值接近实际值。
中	对观察值有中等把握：观察值可能接近实际值，但也可能存有显著差异。
低	对观察值的把握有限：观察值可能和实际值显著不同。
极低	对观察值没有把握：观察值和实际值极有可能显著不同。

盖亚特和萨克特

1995年，盖亚特（英语：Gordon Guyatt）（Guyatt）和萨克特（英语：David Sackett）（Sackett）发表第一个这样的金字塔层级架构^[13]。

格林哈尔（Greenhalgh）将不同类型的初级研究按以下顺序排列：^[6]

收录“有明确结果的随机对照试验”的系统性回顾和统合分析。
有明确结果的随机对照试验（信赖区间与临床显著效应阈值不重叠）
无明确结果的随机对照试验（估计点具临床显著效应，但信赖区间横跨该效应的阈值）
世代研究
病例对照研究
横断面研究（英语：Cross-sectional study）
病例报告（英语：Case reports）

桑德斯等人

桑德斯（Saunders）等人提出草案建议将研究报告分为六大类，依：研究设计、理论背景、可能产生的伤害及大众的接受度。依这个草案进行分类时，处置必须有叙述性的文献发表，包含手册或类似的描述。此草案并不考量对照组的特质、干扰因子的效果、统计分析的特性或是各种其他的条件。

处置可被评估而分为以下六类：^[14]

第一类：有优良研究支持且疗效显著的处置。指有两个或是以上的随机对照试验，比较目标处置和一个合适的对照组，且目标处置的疗效显著地优于对照组。
第二类：有研究支持且可能有疗效的处置。根据非随机分组，有某种类型的对照组（可能是未接受治疗的对照组），且研究结果有显著疗效。
第三类：有研究支持且疗效尚可的处置。支持的研究类型，包括一个有对照组或无对照组的研究，或一系列由单一病患组成的病例系列研究，或是由不同族群组成的研究，而这族群并非我们感兴趣的族群。
第四类：有前胆性且疗效尚可的处置。处置除了过去普遍被接受和被临床历史文献提到外，并没有良好的临床研究支持；但若有任何证据显示处治可能有害，则不应列在此类。
第五类：创新或新兴的处置，包含：不认为会造成伤害，但目前文献上并无广泛讨论或使用。
第六类：有疑虑的处置，包含可能造成伤害，及理论基础不明或不合理的处置。

Remove ads

可汗等人

可汗（Khan）等人在实证回顾与传播中心提出一个评估研究品质的草案，做为评估医学和社会心理处置的一般方法。虽然强烈建议使用随机分派设计，但草案指出，此类设计只有满足以下严格的准则时才适用，如：正确的随机分派，且对所有受试者及研究人员隐匿分组资讯（隐匿分组资讯），包括那些评估研究结果的研究人员（盲法）。这份草案也强调需使用“治疗意向分析”（intention to treat）进行比较，以避免任一组中的受测者退出的人数或原因不相近而产生偏差。草案也为非随机研究设立严格的标准，包括根据可能的潜在干扰因子进行配对分析，充分描述每个阶段的分组和治疗，并对评估结果的人隐瞒受试者的治疗选择（盲法）。这个草案没有为证据等级分类，但根据研究是否符合规定的标准，将治疗分为符合或不符合实证。 ^[15]

美国国家实证应用暨计划注册中心

美国国家实证应用暨计划注册中心（英语：U.S. National Registry of Evidence-Based Practices and Programs，缩写为 NREPP）已制定出一个评估草案。需符合以下条件才会依草案进行评估：当处置措施至少有一个或以上的统计显著（概率小于 0.05）正向结果；已发表于同行评审的期刊或评估报告中；且可取得文件内容，如可供培训的资料。评估结果会将研究品质由 0 到 4 级评分，参考标准包括：研究所采用的结果测量，其可靠性和有效性、支持处置再现性（可预测每次治疗都以相同方式进行）的证据、数据遗失和失访受试者的数量、可能的干扰因素及是否使用合适的统计方法调整，包括足够的样本数。^[16]

历史

加拿大

这个术语源于 1979 年的加拿大定期健康检查工作组（Canadian Task Force on the Periodic Health Examination，缩写为 CTF）报告中，“依所根据证据的品质衡量治疗的有效程度^[17]^:1195”。

它使用的分级制有三个等级，第 II 级再细分成二个子等级：

第 I 级：参考至少一个随机对照试验的证据
第 II1 级：参考至少一个设计良好的世代研究或病例对照研究，特别是由一个以上的研究小组或医学中心组成
第 II2 级：在不同时间或地点，有无处置间的比较
第 III 级：参考权威机构基于临床经验、描述性研究或专家委员会而给予的意见

CTF 将建议分为 A-E 共 5 级^[17]^:1195：针对特定情境

A：良好证据支持的建议
B：尚可证据支持的建议
C：不良证据支持的建议
D：尚可证据支持的建议，反对这样做
E：良好证据支持的建议，反对这样做

此外，CTF 在 1984 年^[18]、1986 年^[19]和 1987 年^[20]更新了他们的报告。

美国

美国的预防服务工作小组（英语：United States Preventive Services Task Force）（USPSTF）于 1988 年根据加拿大定期健康检查工作组提出了他们的指引^[21]^[22]，同样分为三等级，并将第二级再分成二个子等级。

I 级：证据来自于至少一个设计优良的随机对照试验
II-2 级：证据来自于设计优良的世代研究或病例对照研究，最好由一个以上的医学中心或研究团体组成
II-3 级：证据来自于数个时间序列研究，比较有无处置间的结果。具戏剧性结论的非对照试验中也属于这个等级。
III 级：由权威专家提出，基于临床经验、描述性研究或专家委员会报告的意见。

此后数年，还有数个评分标准被提出^[23]。

英国

2000 年 9 月，英国牛津实证中心（英语：Centre for Evidence-Based Medicine）（英语：Centre for Evidence-Based Medicine，缩写为 CEBM）发表有关预后、诊断、治疗效果、治疗危害和筛检问题的“证据等级”指南。它不仅涉及治疗和预防，还包含诊断检测、预后指标或伤害。原始的 CEBM 证据等级是刊在《实证值班》（Evidence-Based On Call）中，让证据检索及评估结果的过程精确可行。发表在 2009 年的版本^[24]^[25]，如下：

更多信息 证据等级, 研究种类 ...

证据等级	研究种类	解释
第一级	1a	由随机对照试验组成的系统性回顾	结果间异质性低
1b	单一随机对照试验	结果的信赖区间小
1c	全或无	指过去绝对死亡的情况，治疗后有可能存活；或过去可能会死亡的情况，治疗后全数存活
第二级	2a	由世代研究组成的系统性回顾	结果间异质性低
2b	单一世代研究或低品质的随机对照试验	例如完成追踪比率 <80%
2c	“结果”研究；生态学研究
第三级	3a	由病例对照研究组成的系统性回顾	结果间异质性低
3b	单一病例对照研究
第四级	4	个案病例系列（英语：Case series）、品质较差的世代研究和病例对照研究
第五级	5	专家意见（英语：Expert opinion），且未经明确地严格评读，或基于生理学、实验研究或符合第一性原理

2011 年，国际团队重新设计了牛津 CEBM 证据等级，使其更易于理解，并参考证据排名方案的最新发展。这个等级已被患者及临床医生使用，并用于制定临床指引，包括：银屑病最佳化使用光疗和局部治疗的建议^[26]及在加拿大使用 BCLC 分期系统诊断和监测肝细胞癌的指引^[27]。

Remove ads

全球

2007 年，世界癌症研究基金会（英语：World Cancer Research Fund）的分级系统分成：令人信服的、高可能性的、低可能性的和证据不足的，共四个等级^[28]。所有疾病的全球负担研究（英语：Global Burden of Disease Study）都以它来评估支持因果关系的流行病学证据^[29]。

支持

1995 年威尔逊等人^[30]、1996 年哈多恩等人^[31]与 1996 年阿特金斯等人^[32]描述各种类型的分级系统并为它们辩护。

反对

提出证据等级十年后，在21世纪对它的批评逐渐增加。2011年，一篇针对重要文献的系统回顾整理出三类批评：实证医学的程序问题（特别是卡特赖特 Cartwright、沃拉尔 Worrall和豪威克 Howick）、实证医学的易错性高于预期（约阿尼迪斯Ioaanidis等人）及实证医学被视为一种不完备的科学哲学（阿什克罗夫特Ashcroft等人）^[33]。多数批评发表在哲学期刊上，因此并未得到支持实证医学的临床医师们关注。迈克尔·罗林斯（英语：Michael Rawlins）^[34]及罗宾·布鲁姆（英语：Robyn Bluhm）表明，实证医学限制了研究结果应用在个别病人照护上，且要了解病因，必须同时了解人口研究和实验室研究。此外，实证医学的证据等级并不考量医疗处置的安全性与有效性的研究。随机对照实验设计需要说明组内差异，而这需要将证据等级由一种同时参考流行病学与实验室研究关系的网络体系取代才能达成^[35]。

根据研究设计建立证据等级一直受到质疑，因为“指引无法正确地为此定义，衡量某些非随机分配对照研究的优点，及考量研究设计上所有局限性的完整清单^[36]。”

施泰根加（Stegenga）特别批评将统合分析视为证据等级最高的做法^[37]。随机对照试验应该被放在证据等级的最顶端的假设也被沃勒尔（Worrall）^[38]和卡特赖特（Cartwright）^[39]批评。

罗斯·尤普舒尔（英语：Ross Upshur）于2005年表示，实证医学是让医师变得更好的指南，但不是哲学教条。他指出实证医学支持者表现出“近乎福音教徒般”的热情，并深信实证医学的优越性，而忽略那些有助拓展实证医学边界的批评^[40]。

博格森（Borgerson）于 2009 年写到证据等级的高低并非绝对，不要知识论般地为他们辩护，但“医学研究者更应该注意那些处理普遍存在偏差的社会机制”^[41]。拉卡兹（La Caze）指出虽然基础科学位于实证医学较低的阶级，但是它却在“指出实验方向、分析与解读资料上扮演重要角色”^[42]。

康卡托（Concato）于 2004 年反驳证据等级给于随机对照试验过多的影响力，且并非所有研究问题都可以用随机对照试验回答，不论是因为实务或伦理议题。即便已有高品质的随机对照试验，其他研究类型的证据仍然重要^[43]。相较其他系统，施泰根加认为证据等级评估系统不合理地局限且相较其它的评比提供的资讯更少^[5]。

2015 年，克里斯托弗·布朗特（Christopher J Blunt）的博士论文专门研究各种医学上的证据等级，论文指出“广为接受的等级，像是拉卡兹模型、条件式层次结构（如：GRADE 建议强度）及豪威克等人捍卫的启发式方法，以上皆通过先前的哲学批评，但他认为这些都非常薄弱，无助于临床应用。例如，“GRADE 建议强度和类似的条件式模型，忽略临床相关信息，如：治疗效果的变异程度，及造成治疗反应不同的原因；而启发式方法缺乏必要的经验支持”。布朗特进一步提到“阶层结构对在临床上应用证据的基础不足”，因为证据等级背后的核心假设，“将由高品质证据支持的平均治疗效果，视为强烈建议的合理性”是站不住脚的，因此，由个别研究支持的证据应单独评读^[44]。

参见

实证应用
实证医学
雅达量表（英语：Jadad scale）（Jadad scale）

参考文献

Loading content...

延伸阅读

Loading content...

外部连节

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads