小笼包不怕胖
泛基因组包括核心基因组(Core genome)和非必须基因组(Dispensable genome)。其中,核心基因组由所有样本中都存在的序列组成,一般与物种生物学功能和主要表型特征相关,反映了物种的稳定性;非必须基因组由仅在单个样本或部分样本中存在的序列组成,一般与物种对特定环境的适应性或特有的生物学特征相关,反映了物种的特异性。 泛基因组测序是运用高通量测序及生物信息分析手段,针对不同亚种/个体材料进行测序及泛组装,构建泛基因组图谱,丰富该物种的遗传信息。泛基因组测序不仅可以获得多个基因组,完善该物种的基因集,还可以获得种群甚至个体特有的DNA 序列和功能基因信息,为系统进化分析及功能生物学研究奠定基础。 在漫长的进化过程中,由于地域因素,环境因素等的影响,每个个体都形成了极其特别的遗传性状, 单一个体的基因组已经不能涵盖这个物种的所有遗传信息,另外一个原因,由于基因测序变得更加廉价,为近年来火爆的泛基因组的研究提供了可能性。 泛基因组是近年来比较流行的一种研究方向,通过对不同品种基因组进行测序,组装,然后将组装好的基因序列进行整合注释,进而获取这个物种全部的遗传信息并且对每一个个体间遗传变异信息进行解析。 从泛基因组学研究中获得的信息在与QTL / GWASs和重测序研究相整合研究中,同时在群体材料表型调查中,可与代谢组研究相整合,对作物次级代谢产物及风味等相关农艺性状进行精细定位。 研究案例: 水稻泛基因组 上海交通大学生命科学技术学院韦朝春团队和中国农业科学院作物科学研究所合作完成基于三代测序数据的水稻泛基因组构建及分析,相关成果论文 “Long-read sequencing of 111 rice genomes reveals significantly larger pan-genomes”在基因组学顶级期刊《Genome Research》在线发表。 该研究在111 个水稻构建的高质量泛基因组中包含879 Mb 的非冗余新序列(序列相似度<90% ,长度> 500bp)。新序列中近一半为长末端重复(LTRs)逆转录元件Gypsy。新序列分布在每条染色体上,Chr1 包含最多数量的新序列,而 Chr11 具有最长长度的新序列。除了 Chr4 和 Chr11 的端粒附近的两个峰以外,含有高密度新序列的基因组区域倾向于位于着丝粒附近。在所有水稻基因组中,野生稻包含的重复序列 LTRs 明显多于栽培稻。在水稻泛基因组新序列中共发现19,319 个新的蛋白质编码基因(2,132 个新基因家族)。在所有基因家族中,约80%是核心或软核心(存在于所有样本中或者存在于超过 90% 的样本中),约20%是非必需的。 论文链接: Long-read sequencing of 111 rice genomes reveals significantly larger pan-genomes - PubMed () 参考链接: 上海交大韦朝春团队合作开发基于三代测序数据构建水稻泛基因组新方法 交大智慧 上海交通大学新闻学术网 () 泛基因组测序(Pangenomic Sequencing) – 聚生物 ()
o晴天娃娃o
浅析现阶段高通量测序中的拼接问题论文
摘要:近年来,随着第二代测序技术的普及和第三代测序技术的逐步发展,高通量测序技术在实际研究中的应用越来越广泛。高速率、高性价比是其主要优点。相对于传统的桑格(Sanger)法测序来言,高通量测序得到的片段长度较为短小,故如何拼接得到完整的序列一直是炙手可热的研究方向。本文总结了现阶段高通量测序中拼接问题的研究结果,针对现在流行的各种算法进行了简单介绍。
关键词:高通量测序;reads 拼接;contigs 组装;OLC、De brujin 图
一、测序技术的发展过程和现状[1]
(一)桑格法
桑格法又叫做双脱氧链终止法,由Sanger在1977年提出。通过加入带有放射标记的dd NTP(双脱氧核苷酸)使DNA合成终止。再通过电泳,并使用放射自显影技术读出碱基。此方法得到的片段较长,能达到1000bp左右。
(二)第二代测序技术
随着科学技术的发展,传统的桑格法已经不能满足研究的需要。科学家们需要更快的速度、更高的通量以及更低廉的价格,于是第二代测序技术应运而生。其核心思想是边合成边测序。现在主要有454 GS FLX、SOLi D和Illumina/Solexa GenomeAnalyzer三个平台。第二代测序是现阶段测序技术的主流,也是高通量测序的开始。
(三)第三代测序技术
第三代测序技术是指单分子测序技术。不需要经过PCR的过程即可测序,速度可以达到每秒十个碱基。通量更大,读长更短,是现阶段测序技术的发展方向。
二、高通量测序中的拼接工作
(一)高通量测序所得片段的特点
高通量测序之后所得到的序列片段称为reads(读取),其主要特点两点。一是长度短,一般在200bp以 下,最长的454平台能达到的长度也不过1000bp,因此需要进行 大量的拼接才能得到整条DNA序列。二是有部分重叠,由于测序位置具有随机性,故各reads总会有一定的重叠,这些重叠是拼接工作的关键。
(二)拼接过程
整个拼接过程分为两步。第一步,考察reads的重复序列,并拼接成更长的片段,称为contigs(重叠群),这一步称为reads的拼接;第二步,确定contigs之间的顺序关系,并按此排列,形成称为scaffolds的序列,这一步叫做contigs的组装。
三、Reads的`拼接
(一)拼接过程的难点
reads拼接过程中要克服的难点主 要有两点,一是高通量测序得到的reads长度较短,故内含信息较少,不易确认相对顺序。二是远程连接信息(Long-range linking information)的不可靠性。 2这两点制约着reads拼接过程的准确率。
(二)方法[3]
reads拼接过程中算法的基本要求是de novo(从头测序),即不需要任何序列信息即可对原料进行测序。由此衍生出两种主流的算法:
OLC,即交叠-排列-共有序列算法(Overlap-layout-consensus),是一个比较传统的算法,其基本思想为根据reads间的重复部分,确定可能性的reads连接顺序。
其步骤为:构建交叠图:对每两个reads进行比对,计算它们的重叠度---排列reads:将reads进行排列,确定它们之间的相对位置,建立overlap图---生成共有序列:通过多序列比对等方法,确立最后的contig.
OLC算法的计算量主要体现在交叠图的构建,而高通量测序得到的海量短序列有大量的交叠,往往需要大量的运算时间。故OLC算法并不适合现在高通量测序的发展趋势。现在某些拼接软件,如Shorty、CABOG等仍在使用基于此的算法。虽然这些软件针对OLC算法有一定的改进和优化,但其拼接速度和准确性仍受到限制。
brujin图
基于De brujin图(DBG)的算法是现在最流行的算法,许多常用的拼接软件如Velvet、ABy SS等都在使用这种算法。其特点为把基因序列的拼接问题转化为了数学上的图论问题,大大提高了拼接效率。
(1)基本思想
reads中 连 续 的k个 碱 基 称 为k -mer,作 为DBG的节点,两个k-mer如 果在同一read中 相邻,则形成一条边。故每个read都会对一些边加权,最后形成一个含有节点、有权值的边的DBG,由此生成最佳的contig.
(2)步骤
筛选reads:对reads进行检测,去除掉可能错误的reads---确定k值:k的值直接影响速度和精度。 K值较大时,精度有所提高,但更容易受覆盖率的影响。故应该根据覆盖率、reads长度等确定合适的k值---处 理DBG:根 据 确 定 的k值,做 出DBG,同时完成化简和修正---根据DBG,拼接成contig.
(3)优缺点
DBG算法在处理海量短reads的时候效果优秀,与现在测序技术的发展趋势相匹配。然而,由于k-mer的长度较短,此方法受重复序列、测序错误的影响较大。
(三)不同拼接软件的效果差异
不同的拼接软件在reads拼接过程中表现为三点:一是比起软件来说,reads质量对拼接结果影响更大;二是与标准序列的接近度随reads和拼接软件的不同有很大改变;三是各软件拼接的正确率差别很大,但与接近度的结果不一致。
四、Contigs的组装
与reads的拼接相比,contigs的组装的难度相对较小。这是因为contigs的长度较reads长很多,所含信息较多。故可以较为准确的组装成scaffold
(一)组装过程的难点[4]
Contigs组 装 过 程 中 的 难 点 主 要 有 二。一 是contigs中 含有大量的重复序列,不易确定contigs之间的相对顺序;二是由于contigs由reads拼接而成,其中不 免 会 有 一 些 错 误,这 些 错 误 也 会 对contigs的组装产生干扰。
(二)方法
Contigs组 装的方法较reads拼 接而言较多,一般常用的有图论法和光学图谱法(Optical mapping)两种。
1.图论法[5]
图论法是比较传统的方法,与reads拼接有相似的地方。它以contigs作为节点,由相连的读取对(Linking reads pair)作为边,由此形成算图。
其一般步骤为:库的构建:构建出含有所有reads的 库---计算相连读取对之 间的距离,并由此计算gap的长度---把长度放在边上,作为算图的数据。
其理想的输出结果是一条scaffold序列,对应一条染色体,包含以正确顺序排 列 的contigs和contigs之间gap的长度。
2.光学图谱法[6]
光学图谱法是一种较为新颖的方法。通过内切酶将DNA切断,此时DNA的片段的谱表现出一种特殊的指纹或是识别码的性质。利用光学方法追踪此信息得到相对位置,由此组装成正确的scaffold.
主要步骤为:将contigs放 置 在 光 学 图 谱上---修正光学图谱---做出contigs的连接图,由此决定最佳的contigs连接顺序。
光学图谱法的组装结果有着很高的覆盖率,巧妙运用光学图谱法可以获得很高的成本效益。
有研究表明,当与454平台获得的实验结果相结合的时候,光学图谱法可以迅速、价廉的得到排列好的定向的contigs组,由此可以产生一个将近完整的基因组。
(三)发展方向
Contigs组装过程的关键点 在于如何得到正确的连接顺序。现阶段此方面研究多集中在这一方向。
五、前景与展望
随着生物学研究向微观、向基因领域逐步延伸,高通量测序作为获得基因序列的主要方法,越来越受到重视,拼接技术也在不断发展。高通量测序的基因片段会变得海量且短小,应对此变化,拼接技术也会由确定“唯一的基因序列”向确定“最可能的基因序列”完成转变。因此,新一代的拼接技术会在准确率、覆盖率和速度上,作出超于现在拼接技术的改进。
参考文献:
[1]Anderson MW, Schrijver I. Next Generation DNASequencing and the Future of Genomic Medicine.?;1(1):38-69. doi:.
[2]Salzberg SL, Phillippy AM, Zimin A, et al. GAGE: Acritical evaluation of genome assemblies and Research. 2012;22 (3):557 -567. doi:.
[3]Deng X, Naccache SN, Ng T, et al. An ensemble strategythat significantly improves de novo assembly of microbialgenomes from metagenomic next -generation Acids Research. 2015;43 (7):e46. doi:.
[4]Latreille P, Norton S, Goldman BS, et al. Opticalmapping as a routine tool for bacterial genome Genomics. 2007;8:321. doi: -2164-8-321.
[5]Hunt M, Newbold C, Berriman M, Otto TD. Acomprehensive evaluation of assembly scaffolding Biology. 2014;15 (3):R42. doi: -2014 -15-3-r42.
[6]Nagarajan N, Read TD, Pop M. Scaffolding andvalidation of bacterial genome assemblies using opticalrestriction . 2008;24 (10):1229 .
财讯期刊还是不错的,财讯期刊是正规期刊,是经国家新闻出版总署批准,面向国内外公开发行的“全国综合性教育理论学术期刊”。《财讯》(CN:44-1617/F)是一本
泛基因组包括核心基因组(Core genome)和非必须基因组(Dispensable genome)。其中,核心基因组由所有样本中都存在的序列组成,一般与物种
自然杂志近年来发展的很快,出版集团还出版了其它专业杂志如《自然医学》,《自然免疫学》,《自然遗传学》,《自然细胞生物学》,《自然神经科学》、《自然生物学技术》、
1847年初,赫尔岑携家到欧洲,大部分时间住在英国和法国,成了政治流亡者。1848年欧洲革命的失败,使赫尔岑思想上发生危机。他对西欧的社会主义运动感到失望,转而
主要研究方向:1)海洋微藻生物技术;2)微藻脂质代谢及微藻生物能源;3)微藻高附加值生物活性物质;4)微藻藻华。近五年,承担“十二五”国家科技支撑计划课题、国家