几种单倍型基因组组装方法的比较
摘要
二倍体个体具有两套遗传信息,一套来自父本,一套来自母本。在大多数二倍体基因组组装中,来自同源染色体的两个同源拷贝被折叠在一起,最终得到一个马赛克(mosaic)序列,也被称为伪单倍型(pseudo-haplotypes),即一套基因组表示两个单倍型信息,缺失了近50%的等位变异信息。单倍型基因组信息对于研究基因组如何影响表型差异至关重要。常规二倍体基因组组装缺失的单倍型信息将会影响后续基因注释的准确性,忽略了两个同源染色体之间的差异。本研究介绍了Gamete binning、FALCON-Phase、Trio binning和ALLHiC 4种用于单倍型基因组组装的方法,旨在获得二倍体两个完整的单倍型基因组,并从连续性、完整性、交换错误率等方面评估其单倍型组装质量。分析整理4种组装方法获得不同水平的单倍型基因组,根据不同的测序数据选择合适的单倍型组装方法,比较得出更适合单倍型基因组组装的组装方法,发现Gamete binning的整体效果最佳,可以获得染色体水平的单倍型解析基因组,N50达到了25Mbp。 ALLHiC虽然可以得到染色体水平的组装,但对于二倍体基因组只获得了单倍型混合基因组,并没有将两个单倍型完全解析出来。而FALCON-Phase和Trio binning虽然获得了两个单倍型,但两者组装序列连续性较低,N50均没有达到兆(Mb)级。整理4种组装方法的优缺点,尝试寻找一种适合单倍型基因组组装的组装方法,为后续的基因注释等下游分析提供保障。得到两个完整的单倍型基因组序列,有助于了解单倍型之间的等位基因差异影响个体表型差异的机制。