-
一篇就够了,带你了解高通量测序!
发布时间: 2021-08-27 点击次数: 2213次说到近十年来发展最迅猛的生物技术,首先想到了高通量测序,我们研究基因组学都离不开它。目前,高通量测序已经深入到生命科学的各个领域,不仅有力地推动了基础研究的发展,也在逐渐征服临床应用。
所谓的高通量测序技术,又名大规模平行测序,是将 DNA(或者 cDNA)随机片段化、加接头,制备测序文库,通过对文库中数以万计的克隆(colony)进行延伸反应,检测对应的信号,最终获取序列信息。与 Sanger 法为代表的传统测序法相比,高通量测序技术在处理大规模样品时具有显著的优势,又快(两天)又多(数百万克隆),成为目前组学研究的主要技术。
当前主要的测序技术平台,主要分为:
*solexa 测序技术(即大家耳熟能详的 illumina 测序平台);
*454 测序技术(读长长,但是准确度较低,成本较高,即焦磷酸测序技术,少量市场占有);
*solid 测序技术(双色编码技术,目前基本在市场上见不到了)。
那么高通量测序技术可以帮助我们做到什么呢?
首先是基因组层面的应用。
对于疾病诊断领域,全基因组重测序技术是一种非常有力的手段。所谓的全基因组重测序,即对基因组序列已知物种的个体(比如人,小鼠等)进行基因组测序,并进行差异信息分析的方法。基于全基因组测序,可以快速的寻找到大量的遗传差异,从而实现遗传进化分析及重要性状候选基因的预测,找到大量的 SNP,InDel,结构变异(SVs)等变异信息,从而获取生物群体的遗传特征。临床上,常规的产前诊断技术是需要通过穿刺(绒毛穿刺、羊膜腔穿刺等)的方法取得胎儿的组织进行遗传学检测,这可能导致一定的流产风险。而在 1997 年,Lo 团队[1]发现了孕妇外周血中存在有胎儿的游离 DNA,而高通量测序技术可以针对短序列 DNA 进行精准的测序。2010 年,Lo 团队借助测序技术完成了母血中胎儿的全部组基因组图谱的绘制[2],证实了利用 cffDNA(cell free fetal DNA)进行胎儿基因检测是*可行的。
目前应用高通量测序技术的三体综合征产前基因诊断技术已经开展临床试点。
在动物学研究方面,Xia 等人[3]运用新一代测序技术对 29 种家蚕(Bombyx mori)和 11 种野 蚕(Bombyx mandarina)进行了基因组重测序, 构建了一个单碱基分辨率的家蚕遗传变异图谱. 每个个体测序约 3X, 覆盖基因组序列的 99.88%, 鉴定出 1600 多万个 SNPs, InDels 和 SVs。 分析结果表明,驯化家蚕由野生蚕分化而来,且在驯养过程中,人为选择优良品种,性状相 对单一。同时,还发现了 354 个受到驯化和人工选择压力影响的蛋白编码基因,主要参与调控蚕的丝蛋白合成,能量代谢,生殖特性和飞行能力。
一个人样品的全基因组测序,目前的价格在 1.3 万人民币左右。然而大量的基因组区域是不编码蛋白质的,甚至对于特定疾病或者表型来说,参与调控的关键基因是已知的,所以研究者更关心的是某一个特定区域的表达情况。这时候,外显子组和目标区域测序就非常适合了。所谓的外显子组(exome)是一个物种基因组中全部外显子区域的总和,通过探针法捕获基因组中全部外显子序列,然后使用高通量测序技术对外显子组测序,可以直接的发现与蛋白质功能变异相关的遗传突变。相对于全基因组测序,外显子测序更加的经济,只需 9000 人民币。而对于感兴趣的特定基因组区域,可以进行目标区域的深度测序。这就更便宜了,200 个扩增子(产物长度<300bp),如果来自同一个模板,则只需 400 块!
那么,除了以上介绍的两种主流的基因组测序方法之外,还衍生出了其他的分析方法,比如简化基因组测序,可以对重要的和复杂性高的 QTLS(quantitative trait loci,数量性状位点)精细定位。简化代表文库测序,对群体中不同基因型的个体采用相同的内切酶酶切,回收相同大小范围的酶切片段并测序,可以降低基因组分析的复杂性。酶切位点相关 DNA 测序(RADseq)等一些新兴的测序分析技术。
在基因组分析上更进一步,我们会对基因表达,可变剪切,基因结构变化等内容感兴趣。所以我们需要使用到转录组测序,即 RNA-seq。即从总的 RNA 中富集出单链 mRNA,再反转录成双链 cDNA,随后进行高通量测序,并与基因组 DNA 序列进行比对。比如,Gruber 等[4] 对 14 例儿童非唐氏综合征急性巨核细胞白血病患者进行转录组测序,发现了一个隐匿的 16 号染色体倒位,inv(1 6)(P13.3 q24.3),形成 CBFA2T3 一 GLIS2 融合蛋白,CBFA2T3-GLIS2 在果蝇和鼠的造血细胞里的表达能够诱导成骨蛋白信号系统的激活,从而促进造血祖细胞的自我更新,研究结果表明 CBFA2T3-GLIS2 融合蛋白的表达可能促进白血病的发生。Zhang 等人 [4]以水稻 9311 的愈伤组织、根尖、茎尖、叶、稻花/稻穗为材料, 进行转录组测序, 展示了栽培水稻不同器官的转录组图谱. 采用高通量双末端测序, 检测到了 7232 个新转录本, 这些转录本表达丰度低, 且具有组织特异性. 共发现了 23800 个可变剪接,说明转录融合事件比我们原来预想的要更加的常见。
通过 RNA-seq,还可以发现新的转录物。长链非编码 RNA(lncRNA)是当前研究的热点,其功能广泛,涉及到个体发育、干细胞分化、细胞代谢、肿瘤发生发展等众多方面。最早的大规模发掘 lncRNA 的工作是通过芯片完成的,但是后来人们发现,高通量测序特别适合用于发掘新的 lncRNA。近年来,在人、小鼠、大鼠、果蝇、斑马鱼、猪等物种中,通过 RNA-seq, 发现了一大批的 lncRNA。进一步研究证实有的 lncRNA 具有调控各种生物过程的能力。这方面的工作比较简单,也形成了一定的套路,对于广大的生命科学研究人员来说是较容易出成果的一个领域。
除 lncRNA 外,环状 RNA(circular RNAs ,circRNAs)研究也是 RNA-seq 的一个重要应用方向。circRNAs 是一类特殊的非编码 RNA 分子,也是 RNA 领域最新的研究热点。与传统的线性 RNA (linear RNA,含 5’和 3’末端)不同,circRNA 分子呈封闭环状结构,不受 RNA 外切酶影响,表达更稳定,不易降解。有研究表明 circRNA 可能通过 miRNA-sponge 的方式来调控 miRNA 对靶基因的抑制作用,在某些疾病中具有重要意义。通过 RNA-seq,可以找到融合(fusion)的序列接口,从而发掘新的 circRNA。这项技术已经得到了许多重要的应用。
同时,我们也常常用到 DGE(digital gene expression)技术。其基本原理是对 cDNA 进行双酶切,从而每一条 mRNA 都会得到一个对应的标签,随后进行高通量测序,比较不同样本之间各种标签的数目,从而找出差异化的标签,即差异化的 mRNA。
microRNA 测序也是目前常用的测序项目。microRNA 是一类内源小分子 RNA,通常在转录后水平,负调节基因表达来发挥作用,控制了多种生物和代谢途径中众多基因的表达,在生物生长和发育中扮演重要角色,目前 microRNA 测序技术普遍用于动植物表观遗传学研究。
除以上介绍的测序技术之外,常用的测序技术还有:
MeDIP-Seq 技术(methylation DNA immunoprecipitationsequencing,甲基化 DNA 免疫共沉淀),是研究甲基化的一种有效的手段。由于在哺乳动物中甲基化一般发生在 CpG 的胞嘧啶 5 位碳原子上,所以可通过特异性结合甲基化 DNA 的蛋白 MBD2b 或 5’-甲基胞嘧啶抗体富集高甲基化的 DNA 片段,并结合第二代高通量测序,对富集到的 DNA 片段进行测序,从而检测全基因组范围内的甲基化位点。
ChIP-seq,染色质免疫共沉淀技术,研究体内蛋白与 DNA 相互作用的一种方法先通过 ChIP 特异性地富集与目的蛋白相结合的 DNA 片段, 而后对所得 DNA 片段进行高通量测序。
总体来说,高通量测序技术的诞生可以说是基因组学研究领域一个具有里程碑意义的事件。该技术使得核酸测序的单碱基成本与第一代测序技术相比急剧下降。但是同时由于数据量的大幅度上升,全基因组测序临床应用的瓶颈在于信息的分析和解读能力不足。如何更好的分析数据,挖掘数据,验证结果,随之而来的生物信息学解决方案可以为基因组学研究带来更大的机遇。
参考文献:
[1] Lo Y M, Corbetta N, Chamberlain P F, et al. Presence of fetal DNA in maternal plasma and serum[J] .Lancet, 1997,350(9076):485-487
[2] Lo Y M, Chan K C, Sun H, et al. Maternal plasma DNA sequencing reveals the genome-wide genetic and mutational profile of the fetus [J]. Sci Transl Med, 2010,2(61):61r-91r
[3] Xia Q, Guo Y, Zhang Z, et al. Complete resequencing of 40 genomes reveals domestication events and genes in silkworm (Bombyx). Science, 2009, 326: 433–436
[4]Gruber TA, Larson GedmanA, Zhang J, et al. An lnv(16)(p13,3q24.3)- encoded CBFA2T3-GLIS2 fusion protein defines an aggressive subtype of podiatric acute megakaryoblasticleukemia[J]. Cancer Cell, 2012, 22(5):683-697