摘要

二倍体个体具有两套遗传信息,一套来自父本,一套来自母本。在大多数二倍体基因组组装中,来自同源染色体的两个同源拷贝被折叠在一起,最终得到一个马赛克(mosaic)序列,也被称为伪单倍型(pseudo-haplotypes),即一套基因组表示两个单倍型信息,缺失了近50%的等位变异信息。单倍型基因组信息对于研究基因组如何影响表型差异至关重要。常规二倍体基因组组装缺失的单倍型信息将会影响后续基因注释的准确性,忽略了两个同源染色体之间的差异。本研究介绍了Gamete binning、FALCON-Phase、Trio binning和ALLHiC 4种用于单倍型基因组组装的方法,旨在获得二倍体两个完整的单倍型基因组,并从连续性、完整性、交换错误率等方面评估其单倍型组装质量。分析整理4种组装方法获得不同水平的单倍型基因组,根据不同的测序数据选择合适的单倍型组装方法,比较得出更适合单倍型基因组组装的组装方法,发现Gamete binning的整体效果最佳,可以获得染色体水平的单倍型解析基因组,N50达到了25Mbp。 ALLHiC虽然可以得到染色体水平的组装,但对于二倍体基因组只获得了单倍型混合基因组,并没有将两个单倍型完全解析出来。而FALCON-Phase和Trio binning虽然获得了两个单倍型,但两者组装序列连续性较低,N50均没有达到兆(Mb)级。整理4种组装方法的优缺点,尝试寻找一种适合单倍型基因组组装的组装方法,为后续的基因注释等下游分析提供保障。得到两个完整的单倍型基因组序列,有助于了解单倍型之间的等位基因差异影响个体表型差异的机制。

阅读全文 »

1. 介绍

来到这里的你,可能早已阅尽全网各种博客;有中规中矩的样式,专注内容输出的;也有花里胡哨,内容蹩脚的(这不就是我吗?嘿嘿 )。为了与众不同,可以添加各种样式,于是记录如下:

阅读全文 »

Introduction

从公共数据库中下载的 10x 数据,有很大一部分都是以 Bam 文件形式存储。但是在进行后续分析中,基本都是基于 fastq 或 fasta 的,于是我们需要将 Bam 转换成 Fastq。官方提供了 bamtofastq ,用于将 Cell Ranger、Space Ranger、Cell Ranger ATAC、Cell Ranger DNA 和 Long Ranger 生成的 10x BAM 转换回 FASTQ 文件的工具,可用作重新运行分析的输入。

阅读全文 »

Introduction

首先,了解什么是结构变异?

名词解释:

  • Structural Variations (SVs):结构变异
  • Translocation:易位
  • Inversions:倒位
  • Duplication:重复
  • Deletion:缺失
  • Insertion:插入
  • InDel:插入缺失
  • Copy Number Variants(CNVs):拷贝数变异
  • Copy Number Polymorphism(CNP):拷贝数多态性
  • Presence absence Variation(PAV):获得与缺失变异
  • Genomic Imbalances:基因组失衡
  • Single nucleotide polymorphism(SNP):单核苷酸多态性
  • whole-genome alignments(WGA):全基因组比对

SVs 结构变异,包括 长度在 50bp 以上的长片段序列的插入或缺失(Indel)、染色体倒位、序列串联倍增、染色体内部或染色体之间的序列易位、拷贝数变异(CNV)以及一些形式更为复杂的变异。

Indel,插入缺失,指的是在基因组的某个位置上所发生的小片段序列的插入或者删除,其长度通常在 50bp 以下。

CNV 拷贝数变异,一般是指长度为由 kbMb 级别组成大片段序列的拷贝数增加或减少。

SNP,单核苷酸多态性,由单个核苷酸 A、T、G、C 的改变而引起的 DNA 序列的改变,造成个体之间基因组的多样性。SNP 位点的分布是不均匀的,在非编码区比在编码区更为常见;一般来说,自然选择倾向于保留最有利于遗传适应性的 SNP 位点。在人类的遗传变异中,约 90% 为 SNP 变异,也就是说在人类基因组中,每隔 100 至 300 个碱基就会存在一个 SNP 位点。

阅读全文 »

Introduction

Purge Haplotigs 主要用于三代测序数据组装校正,主要服务于高度杂合的基因组组装,以自动重新分配等位基因重叠群(automate the reassignment of allelic contigs)。

原理:通过识别和重新分配等位基因组重叠群来改进基于三代测序的基因组组装的单倍体和二倍体表示。

与基于比对的方法相比,该实现速度快且可以很好地扩展大型基因组,并且不太可能过度清除重复或旁系同源基因。

阅读全文 »

回顾

2022 年 03 月,基于 Hexo+Github-Page 白嫖了一个 Blog,并在 “Theme-Next” 的基础上加入个性化样式,期间不断完善;同时也通过查看他人博客,以及各位大佬对 Theme-Next 的魔改教程,结合自身需求,应用各种插件,最终形成 "JWei's Blog"。

阅读全文 »

Introduction

Snakemake 用于编写任务流程的一种工具,python 语言编写,可创建 可重复可扩展 的数据分析。同时还可以无缝扩展到服务器、集群、网格和云环境,无需更改工作流定义。

阅读全文 »

Introduction

当我们需要组装一个新物种时,采用各种组装工具进行组装总是需要调各种参数,才能达到我们期望的质量。如设置基因组大小,此外还可能根据基因组的杂合度、重复率等来预览基因组。这里介绍一种基于 k-mer 的基因组分析 --- Jellfish + GenomeScope

k-mer 是什么?

对于我们拿到的 illumina 测序数据,迭代选取长度为 k 的序列片段。也就是说 k-mer 是一段碱基的子串。

阅读全文 »