全基因组关联分析

全基因组关联分析（Genome-wide association study, GWA study, GWAS）是指在人类全基因组范围内找出存在的序列变异，即单核苷酸多态性（SNP），从中筛选出与疾病相关的SNPs。全基因组关联分析研究通常侧重于单核苷酸多态性（SNP）与人类重大疾病等性状之间的关联，但也同样适用于任何其他遗传变异和任何其他生物。

当应用于人类数据时，GWA 研究会比较特定性状或疾病的不同表型参与者的 DNA。这些参与者可能是患有某种疾病的人（病例）和没有这种疾病的类似的人（对照组），也可能是某种特质（如血压）具有不同表型的人。这种方法被称为 "表型优先"（phenotype-first），即首先根据参与者的临床表现进行分类，而不是"基因型优先"（genotype-first）。每个人提供一份 DNA 样本，使用 SNP 阵列从中读取数百万个基因变异。如果有重要的统计证据表明，一种变异类型（一种等位基因）在疾病患者中更为常见，那么这种变异就被认为与疾病相关。然后，相关的 SNPs 就被认为是人类基因组中可能影响疾病风险的区域的标记。

GWAS研究调查的是整个基因组，而不是专门测试少量预先指定基因区域的方法。因此，GWAS 是一种非候选基因驱动(non-candidate-driven)的方法，与基因特异性候选基因驱动的研究(gene-specific candidate-driven studies)不同。GWA 研究能确定 DNA 中与疾病相关的 SNPs 和其他变异，但它们本身并不能确定哪些基因是致病基因^[2]^[3]^[4]。

首个成功的 GWAS 研究于 2002 年发表，研究对象为心肌梗死。 ^[5]随后，这一研究设计被应用于具有里程碑意义的 GWA 2005 研究中，该研究调查了患有年龄相关性黄斑变性的患者，发现与健康对照组相比，两个 SNP 的等位基因频率发生显著改变。 ^[6]截至2017年^[update]，已有 3,000 多项人类 GWA 研究检查了 1,800 多种疾病和特征，发现了数千个 SNP 关联。 ^[7]除罕见遗传病外，这些关联都非常弱，尽管每个单独的关联可能无法解释太多风险，但它们提供了对关键基因和途径的洞察，从总体上看具有重要意义。

Remove ads

研究历史

2005年，Science杂志报道了第一项具有年龄相关性的黄斑变性GWAS研究^[8]。
之后陆续出现了有关冠心病^[9]、肥胖^[10]^[11]^[12]、2型糖尿病^[13]^[14]^[15]、甘油三酯^[16]、精神分裂症以及相关表型^[10]^[11]^[12]的报道。
Genetic Epidemiology、Biometrics等杂志也在遗传统计学角度对GWAS进行了数据统计学方向的探讨和研究，以实现低成本、高效益地找到遗传标记与疾病间的关联，同时解决GWAS分析过程中出现的假阳性问题。

应用前景

GWAS为人们打开了一扇通往研究复杂疾病的大门，将在患者全基因组范围内检测出的SNP位点与对照组进行比较，找出所有的变异等位基因频率，从而避免了像候选基因策略一样需要预先假设致病基因。同时，GWAS研究让我们找到了许多从前未曾发现的基因以及染色体区域，为复杂疾病的发病机制提供了更多的线索。

统计分析原理

基于无关个体的关联分析

病例对照研究设计：主要用来研究质量性状，即是否患病。
基于随机人群的关联分析：主要用来研究数量性状。

基于家系的关联研究

在研究基于家系的样本时，采用传递不平衡检验（TDT）^[17]分析遗传标记与疾病数量表型和质量表型的关联可以排除人群混杂对于关联分析的影响，但其在发现阳性关联的检验方面不如相同样本量的病例对照研究有效。

FBAT是运用十分广泛的基于家系的统计分析工具，能够分析质量性状及数量性状、调整混杂因素、分析基因-环境相互作用、分析单倍型、调整多重比较等。

单体型分析研究的必要性^[18]

多位点单体型分析能够发现单体型-疾病表型之间的关联，这种关联要明显强于单个位点-疾病表型之间的关联。
单体型分析能够发现非TagSNPs与疾病之间的因果关系。

研究设计表型选择

选择遗传度较高的疾病或者表型进行检测能够提升遗传学关联研究的把握度^[19]。
由于有时病症很难测量或是多种病症混杂在一起造成疾病状态的分辨困难，研究疾病相关的数量表型要优于研究疾病状态。
由于测量数量表型的难易程度和该表型的遗传度相关，通过控制测量误差、噪音和总体变异能够加强数量表型变异与遗传因素的比例关系，因此一般选择测量简单准确并且遗传度相对较高的数量表型。

研究设计类型

单个阶段研究

单个阶段研究即在有了足够大的病例和对照样本数量后，一次性地对其所有选中的SNP进行基因分型，然后分析每个SNP与疾病的关联，计算其关联强度和OR值。由于样本数量需求量大，单阶段研究基因分型一般耗资巨大。

两个或多个阶段研究

采用小样本数量进行第一阶段的全基因组范围SNP基因分型，统计分析过后一般能够筛选少量阳性SNPs，之后的第二阶段再在更大数量的样本中对这些阳性SNPs进行基因分型，最后整合两个阶段的结果进行分析。研究证明DNA pool和微阵列试剂盒均能够降低基因分型的工作量，能够进行低成本高效益的SNP筛选。

多重假设检验调整

Bonferroni校正法
递减调整法（Step-Down Adjustment）
模拟运算法(Permutation)
控制错误发现率法(False discovery rate)

研究的重复

由于GWAS研究的各种研究设计方法以及遗传统计方法无法从根本上消除人群混杂、多重比较造成的假阳性，我们需要通过重复研究来保证遗传标记与疾病间的真关联^[20]。

通过增大样本数量来提高检验效率，增加与疾病相关联的SNPs的概率。
在两个人群中分别对样本中所有的SNP进行基因分型，之后再交换重复测量对方得到的阳性SNPs。这样做首先保证了低假阴性率，随后在较大样本中重复阳性结果又最大程度地避免了假阳性的产生。

临床应用和实例

未来成功的 GWA 研究面临的一个挑战是如何应用研究结果，加快药物和诊断方法的开发，包括将基因研究更好地融入药物开发过程，以及关注基因变异在维持健康方面的作用，以此作为设计新药和诊断方法的蓝图。有几项研究探讨了使用风险 SNP 标记作为直接提高预后准确性的手段。一些研究发现预后准确性有所提高，^[21]而另一些研究报告称，这种使用方法只带来很小的好处。^[22]通常，这种直接方法的一个问题是观察到的效果很小。小的效果最终会导致病例和对照之间的区分不充分，因此预后准确性只会得到很小的改善。因此，另一种应用是 GWA 研究阐明病理生理学的潜力。^[23]

丙型肝炎治疗

其中一项成功案例与识别与抗丙型肝炎病毒治疗反应相关的遗传变异有关。对于用Pegylated interferon alfa-2a 或Pegylated interferon alfa-2b 联合利巴韦林（英語：Ribavirin，俗称'病毒唑'）治疗的 1 型丙型肝炎，GWA 的一项研究^[24]表明，编码干扰素 lambda 3 的人类 IL28B 基因附近的 SNP 与治疗反应的显著差异有关。后来的一份报告表明，相同的遗传变异也与 1 型丙型肝炎病毒的自然清除有关。^[25]这些重大发现促进了个性化医疗的发展，并允许医生根据患者的基因型定制医疗决策。^[26]

心房颤动

例如，2018 年完成的一项元分析揭示了与心房颤动相关的 70 个新位点。已鉴定出与转录因子编码基因相关的不同变体，例如 TBX3 和 TBX5、NKX2-5 或 PITX2，这些基因参与心脏传导调节、离子通道调节和心脏发育。还鉴定出与心动过速 (CASQ2) 或与心肌细胞通讯改变 (PKP2) 相关的新基因。^[27]

精神分裂症

使用高精度蛋白质相互作用预测 (HiPPIP) 计算模型进行的研究发现了 504 种与精神分裂症相关基因相关的新蛋白质-蛋白质相互作用 (PPI)。^[28]^[29]^[30]虽然支持精神分裂症遗传基础的证据并无争议，但一项研究发现，从 GWAS 发现的 25 种候选精神分裂症基因与精神分裂症几乎没有关联，这表明仅靠 GWAS 可能不足以识别候选基因。^[31]

保育应用

种群水平的 GWA 研究可用于识别适应性基因，以帮助评估物种在全球气候变暖的情况下适应不断变化的环境条件的能力。^[32]这可能有助于确定物种的灭绝风险，因此可能成为保育规划的重要工具。利用 GWA 研究确定适应性基因有助于阐明中性和适应性遗传多样性之间的关系。

农业应用

植物生长阶段和产量构成

GWAS 研究是植物育种的重要工具。通过大量的基因分型和表型数据，GWAS 能够有效分析作为重要产量构成因素的性状的复杂遗传模式，例如每穗粒数、每粒重量和植物结构。在一项关于春小麦 GWAS 的研究中，GWAS 揭示了谷物产量与抽穗数据、生物量和每穗粒数之间存在很强的相关性。^[33]GWAS 研究在研究水稻复杂性状的遗传结构方面也取得了成功。^[34]

植物病原体

植物病原体的出现对植物健康和生物多样性构成了严重威胁。考虑到这一点，鉴定对某些病原体具有天然抗性的野生型可能至关重要。此外，我们需要预测哪些等位基因与抗性有关。GWA 研究是检测某些变异与植物病原体抗性关系的有力工具，有利于开发新的抗病原体品种。^[35]

鸡

2007 年，Abasht 和 Lamont ^[36]首次对鸡进行了 GWA 研究。该 GWA 用于研究之前发现的 F2 群体的肥胖性状。在 10 条染色体上发现了显著相关的 SNP（1、2、3、4、7、8、10、12、15 和 27）。

存在的问题

人群混杂（Population Stratification）是在大样本研究中导致假阳性、假阴性结果出现的重要原因之一^[37]。使用分层分数法（Stratification-score approach）控制人群分层、运用统计分析手段控制人群混杂的影响、采用基于家系的关联研究均能够避免人群混杂对关联结果分析的影响。
解释基因-变异-环境因素之间的相互作用关系需要使用GWAS对更多微效的与疾病关联的基因变异进行研究。
数据共享是使用GWAS得到遗传标记与疾病确切关联的必要手段，尽管难度很大，但是在研究复杂疾病的遗传变异中能够发挥重要的作用。

参看

参考文献

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.