生物芯片与第二代测序技术是两种重要的高通量基因组学研究方法,在生命科学研究领域有着极其广泛的应用前景。经过近20年的发展,生物芯片技术逐渐成熟,正在向着“高密度,灵活定制,微量样品”的方向发展,从一个实验室技术发展成一个基因组学研究所依赖的,快速产生海量数据的常规手段,正在逐步走向产业化。第二代测序技术是最近几年建立的高通量技术,其特点是一次测序反应可以产生千万到亿条序列,而测序的成本大大降低,到2010年已经进入数千美元测定一个人全基因组的时代。
那么,二代测序会不会取代芯片技术呢?是不是Sanger测序(一代测序不用了呢)?下面主要针对在一个帖子上发的问题总结一下,主要讨论二代测序与基因芯片的区别与优缺点:
讨论 1 二代测序与基因芯片的区别与优缺点。
生物芯片与第二代测序都是基因组学研究的重要手段。经过近20多年的发展,生物芯片相对第二代测序而言,优势在于价格便宜,便于分析。缺点则在于必须有参考序列(因为生物芯片的探针设计就是根据参考序列设计的)。当然还有很多技术上的优缺点,这里主要讨论他们的本质,来消除很多人对于二者的误解,认为基因芯片被二代测序取代至少在目前看来还是比较片面的。
相同点:
高通量和一些应用领域上的重合(比如表达谱,SNP)
不同点:
1.本质不同:
基因芯片的本质是核酸杂交。只不过是同时进行上万个核酸杂交而已;第二代测序在本质上是PCR.先用PCR的方法构建测序文库(SOLiD的油包水PCR,Solexa的桥式PCR),随后再以“边合成边测序”或者“连接介导的测序”,得到序列信息。
2.应用不同:
由于是核酸杂交,不需要扩增。因此基因芯片是个相对封闭的系统,只能检测序列已知的片段的浓度;另外,由于不需要扩增,保真性也较好。第二代测序本质上是测序,因此是个开放的系统,能检测到那些没有参考序列的片段,并且给出序列。由于在构建测序文库的过程中有PCR放大的过程,因此相对灵敏度较高(需要高覆盖倍数的测序深度配合),但也由于PCR放大过程的不均衡性,样品中片段的内在浓度比例常常会被破坏掉。所以:
(1)microarray不能发现新序列,而NGS可以发现一些以前没有检测到的基因。
(2)由于NGS本质上还是PCR,在建库的过程中样本被扩增上千倍,因此样本中基因的量的线性关系会有所偏差。因此NGS定量不是很好。如果想检测基因的表达量,还是用microarray的好。
因此,基因芯片和第二代测序技术在应用上虽然有交集,但还是有差别的。如果是比较参考序列良好的物种的表达谱,基因芯片好一些,而且基因芯片发展成熟,后续数据分析较方便。而如果想发现新的转录本,或者研究基因表达的可变剪接,3’UTR的变化等等,还是用第二代测序的好。我们现在倾向于认为基因芯片和第二代测序技术是两种不同的技术,两者有交集,但更多的是不同。至于选择哪种技术,还是要看具体想解决的问题是什么。简而言之,如果是想发现新东西,做探索性的实验,用NGS好些。如果研究对象是那些已知的东西,对定量的准确度要求很高,那么还是microarray的好。还有很多研究当基因组信息未知的时候,先用NGS测序全基因组序列,再用microarray进行分析。
讨论 2.Sanger与二代测序的比较
一下问题我想用在一个网站(后面有链接)上的帖子来说明。帖子挺好的,建议大家看看
问题:现在有几株噬菌体需要测序,不知道选用哪种方法好。一类是传统的sanger法,另一类是solexa。如果用solexa测的话,小基因组可能会有比较多的gaps,拼接效果没有sanger法好,但是费用低。我们的噬菌体基因组在100kb左右。请问我选用哪种方法好呢?谢谢!
答:如果你只有一株噬菌体的话,我建议你用Sanger法测序。100Kb的基因组很小,保守假设Sanger法测序每次能测500bp,那么理论上只需200次就可以覆盖一次基因组了,而且数据质量好,价格也不贵。
但是,如果你有好几株噬菌体的话,我还是建议你用第二代测序,因为可以设置Barcode,好几株噬菌体一起测序,这样测序的费用会大大降低。但是如果是denovo 测序的话都存在需要用sanger法补gap的可能性。
讨论 3.关于二代测序的几种方法
问题1.我想问下各个基因组测序方法之间的区别是什么?例如solex和denovo测序法。
答: Solexa并不是一种测序方法,而是一种第二次测序仪器。
目前,第二代测序的仪器主要有3家:(1)Roche 454 Genome Sequencer FLX;(2)IlluminaGenome Analyzer IIx (Solexa);(3)ABISOLiD3。当然Illumina和ABI现在都已经发布了新的测序仪,分别是Hiseq 2000和SOLiD4。
关于测序方法,则主要是以下几类:
1、De novo测序:即从头测序,不需要任何现有的序列资料就可以对某个物种进行测序,利用生物信息学分析手段对序列进行拼接,组装,从而获得该物种的基因组图谱。
2、基因组重测序:对有Reference Sequence的物种进行测序,寻找基因差异。
3、转录组测序:对转录组(RNA)进行测序。
此外,还有第二代测序与其它技术相结合,还有ChIP-Seq;甲基化测序等。
问题2.我是在读硕士,老板说我的课题方向做某种微生物的全基因组测序。但该生物的基因NCBI上,还有必要测吗?如果要测,请问我要提供什么样品?量为多少?测序后的拼接是你们做还是我们自己做?测完后可以做什么分析?做这种低等生物的全基因组测序,周期大概多长?
答:如果已经存在参考序列,那么再测一次就叫做重测序(re-sequence)。重测序的话,可以发现基因组的改变,一些SNV,smallindel等。这些都很有意义。
例如:研究某种微生物的耐药性。那么可以将已经产生耐药性的菌株重测序,与参考相比较,发现有哪些基因发生改变,那些基因可能正是耐药性产生的根源。
如果要测序的话,提供DNA就可以了,5微克应该够了。测序后的拼接和数据分析,上海伯豪都有专门的生物信息学团队完成。测序周期的话要根据测序量来定。
问题3.请问如果要对人类的肿瘤组织进行全基因组测序,是进行de novo 还是Re-Sequence?人类的全基因组测序结果已经公布(千人基因组),但是肿瘤组织每种肿瘤、不同病理类型、不同种族差异很大。
答:对人类样本测序都是Re-Sequence。因为已经有参考序列,在NGS中,参考序列的意义是搭建一个框架,然后NGS得到的数据就可以根据这个框架搭建上去(拼接)。
虽然不同的个体,不同的肿瘤组织基因组序列不同,但是框架是一样的。NGS得到的数据依靠框架重新拼接起来,就可以得到各个组织独特的基因组序列。
讨论 4.关于SNP和GWAS
问题1.如果我要对一个病人的家系做全基因组测序,以探求其可能的致病基因,应该用什么样的方法比较好?做GWAS都有什么仪器?罗氏454是不是其中一种?
答:GWAS(全基因组连锁分析)是指比较病人群体和正常人群体之间的基因、外显子或SNP差异,从而找到致病基因的技术路线,目前比较流行。您对家系的研究不算GWAS。GWAS是散发型的Case/control的研究,一般样本量大于800例。您对家系的研究,应该算是连锁分析(linkage),需要至少垂直三代的数据。但是比GWAS还是少得多。目前比较病人群体与正常人群体之间的差异,一般有第二代测序(NGS)和生物芯片(microarray)两类。
NGS:基因组重测序(比较基因组差异);外显子捕获测序(比较外显子编码差异)。
microarray:SNP芯片(比较SNP差异);CGH芯片(比较基因组结构差异)
你所说的罗氏454是第二代测序的一种,可以用来做连锁分析。但是罗氏454费用较高,一般不推荐。一般推荐ABISOLiD,因为您的研究对象是人,参考序列良好,而SOLiD测序准确率高。
问题2.根据NCBI上可以得到线虫的SNP,我从一颗树上取下一推线虫(由于线虫太小,无法分离)来提取基因组,想通过再测序知道我的样本中SNP是否与数据库一致,另外还想知道SNP发生的频率是多少。请问哪种方法可以得到我想要的结果呢?
答:你的样本实际上是一个线虫基因组DNAPool。这样的样本拿来测序,得到的数据是可以与NCBI数据库比对的,你可以发现一些那棵树上的线虫种群所特有的SNP位点。但是,以此来推算SNP位点的频率是不行的。因为那个线虫基因组DNAPool是不均匀的。
举个例子,那棵树上有两只线虫A和B。A的基因组大些,为2ug;B的基因组小些,为1ug。在某个SNP位点,线虫A为C,线虫B为T。
然后你逮到了线虫A和B,然后混合提取基因组DNA。所提取到的基因组DNApool为3ug(A占2ug,B占1ug)。假设测序的扩增过程是完全线性的,那么最后的测序结果中,在那个SNP位点,67%的比率为C,33%的比率为T。
这样的测序结果,你能说在这个SNP位点C的频率为67%吗?当然是不能的。
因此。你想发现新的SNP位点是可以的。但是想估算SNP频率是不行的。
讨论 5. 关于转录组测序
问题1.请问全转录组测序,可以同时检测mRNA、miRNA及其他非编码RNA吗?
答:首先需要向您讲明一个事实。目前,第二代测序的长度有不同的选择。SolexaGAIIx的测序长度是36bp,75bp和100bp;ABISOLiD3的测序长度是25bp和50bp。不同的测序长度的费用是不同的!目前,我们通常根据测序样品长度的不同而选择不同的测序长度。例如:mRNA测序通常会需要75bp的读长,而microRNA则只需要36bp或者50bp的读长就足够了。
关于您所提的问题,技术上是可行的,我们可以以75bp的读长测mRNA的同时测其中包含的microRNA。但是在经济上是不划算的。microRNA比较短,PCR扩增倍数多,形成的cluster多,占用了很多本该属于mRNA测序的资源,而它们本身又用不完75bp的读长,所以造成浪费。
一般来讲,如果要进行 microRNA测序的话。我们希望能将microRNA分离出来,单独测序。
问题2. 请 教miRNA芯片服务和LncRNA芯片服务的价格比较简单的技术区别。
答:miRNA芯片和LncRNA芯片实际上是两类相差很大的芯片。miRNA比较短,因此芯片公司在设计检测miRNA的探针时,在探针头部加了一个发夹结构,整个探针像一个钩子一样。这样能将microRNA前体与成熟的microRNA区分开,提高检测的特异性。而LncRNA比较长,检测LncRNA的探针设计和普通mRNA一样。目前LncRNA的研究还不深入,对于生物芯片之类比较依赖于参考序列的实验技术来讲,LncRNA芯片不是很成熟。因此,如果您是想比较两组样品之间miRNA的差异表达,可以选用microRNA芯片(定量较准)。如果您是想发现新的microRNA,或者对LncRNA进行研究。我建议您使用第二代测序。
生物芯片与第二代测序技术丁香园答疑帖精选(上)
http://www.ebioservice.com/show_news.asp?id=770
生物芯片与第二代测序技术丁香园答疑帖精选(下)
http://www.ebioservice.com/show_news.asp?id=1259