关于融合(Fusion)的相关基础知识
Introduction
融合事件的检测可从 DNA
或 RNA
这两个层次进行,通过一篇综述论文来了解一下癌症融合检测的相关知识。
Getting Started
Fusion RNAs
是指任何依赖基因注释而非生成机制的杂交转录本,指两个或更多基因的转录本融合而成的RNA分子;其并非均有害,Fusion RNAs
可在不增加基因数量的前提下扩大基因组功能,从而促进细胞表型可塑性。
融合事件导致 16.5%
的人类癌症;并在 1%
以上起唯一的驱动作用
基因融合
是指两个或更多基因在转录水平上发生融合形成一个新的融合基因;通常是在转录水平上发生;与肿瘤发生密切相关,可能导致某些正常的基因被激活或过度表达,从而导致细胞的不受控制的生长和分化
融合致癌性:
- 改变肿瘤抑制因子
- 改变原癌基因的表达
- 通过编码融合蛋白来改变蛋白质功能,从而刺激肿瘤发生(一些融合蛋白具有免疫原性,可在个性化免疫疗法中产生靶向的新抗原)
融合的分类
尚未采用明确定义和普遍接受的融合 RNA 分类系统和术语。这里提及的是
Calabrese等人
提出的融合分类系统。
- 基因组重排依赖性融合(由DNA水平的变化引起)
- 直接融合:单一结构重排
- 复合融合:多次结构重排
Two-Hop Fusion
:Hopped Fusions
中的hop
代表着融合中涉及的结构重排事件的数量Bridged Fusion
:桥接融合,其中第三个基因位置连接两个基因
- 基因组重排独立性融合(由RNA水平的变化引起)
- 反式剪接(Trans-splicing)
- 基因内(intragenic): Sense-antisense Fusion(SAS);正义-反义融合【发生在基因内的反式剪接事件,来自同一基因的双向转录本的融合】
- 基因间(intergenic):
- 顺式剪接(Cis-splicing):Cis-splicing between adjacent genes(cis-SAGe),相邻基因之间的顺式剪接
- 转录延申(transcriptional readthrough):在转录过程中,RNA聚合酶在终止信号处不完全停止转录,而是继续将DNA模板中下一个基因的信息转录为RNA的现象(延长突变???)
- 反式剪接(Trans-splicing)
SAS Fusions
代表基因内发生的反式剪接事件,表示来自同一基因的正负链转录本的融合;通常是组织特异性的。
Fusion-circRNAs
环状融合被认为是沿着基因融合断点反向剪接的可能结果
有人提出只有反式剪接或者基因重排形成的 RNAs,才能被视为真正的融合;因为通读机制转录的RNA可能是未注释基因的RNA或已知基因的RNA异构体,可能不是真正的融合。
RNA水平发生的融合事件可能与基因组融合事件一样重要;有研究表明,18%的融合没有显示出基因组重排的证据。
融合 RNA 最初通过反式剪接产生并识别其亲本基因,然后可能引导基因组重排形成相应的基因融合;
含有反义链的融合转录本似乎是一件很常见的事件,最近的一项生物信息学研究表明,它们在33种癌症中贡献了61%的复发性融合转录本。
通过 RNA-Seq
检测融合转录本
RNA-Seq
检测融合的敏感性和特异性取决于测序深度、读长和质量,以及所使用的生物信息学方法和参数。
由于 short-reads
在捕获复杂的基因组重排、重复丰富区域或全长转录本时效率较低;因此短读并不适用发现新或非常规的融合转录本。
short-read
检测融合策略:
- mapping-first:与参考基因组进行比对,以寻找基因组重排相关的reads【更敏感】
- 优点:策略简单易行、且不需要进行复杂的组装过程;一定程度上节省时间和计算资源;同时还能提供更精确的定位和注释信息;在处理大规模数据时具有更高的效率和可扩展性
- 缺点:取决于参考基因组的完整性,无法检测一些未被注释的区域或新转录本,故无法直接检测新的融合基因或融合转录本
- assembly-first:先将测序 reads
进行拼接组装,得到一组转录本或基因集,再将每个read的数量信息映射回到组装后的转录本或基因上,以得到每个基因或转录本的表达量和表达模式信息【更有利于恢复融合异构体】
- 优点:可以很好的应用于新物种或尚未组装的基因组或转录本的RNA测序数据分析;可以更好的恢复融合基因或异构体;提供分析的准确性
- 缺点:耗时、耗资源;组装过程中可能存在一定的误差和不确定性(组装算法通常比比对算法更加复杂)
==针对短读造成的缺陷,一项新的测序方法产生:SLR==
克服短读段测序读长限制的一种方法是合成长读测序(SLR-Seq
),依赖于将共享相同
barcode
的短读编译在一起,然后构成那个更长的
reads
。
Synthetic long-read(SLR) sequencing:是一种基于短序列的高通量测序技术;通过组合和拼接短序列reads,模拟长读长的效果,从而实现对整个基因组、转录组或RNA分子的全长测序【具有低错误率和更高的通量】
- 优点:
- 可以捕捉RNA分子的全长信息,尤其是对于长转录本和融合基因的分析具有重要意义
- 可以避免二代测序技术中存在的拼接错误和假阳性等问题,提高数据准确性和可靠性
- 可以同时对多个样本进行测序,减少实验时间和成本
- 缺点:
- 需要对RNA进行分离、逆转录、PCR扩增等多个步骤,容易引入潜在的噪声和偏差
- 测序过程中可能存在的PCR偏差和测序错误,可能影响数据质量和可靠性
- 数据处理和分析比
NGS
更为复杂,需要使用专门的算法和工具进行组装和分析
通过
long-read RNA-Seq
检测融合转录本
long-read RNA-Seq
:融合转录本检测的新可能;长读测序可以产生更准确的融合预测(因为长读可以跨越转录本的整个长读,从而提高比对的准确性和融合检测,且可以解析复杂的外显子异构体并识别大型转录本,而不依赖于统计推断)长读长测序有助于揭示融合发生相关基因融合中的融合异构体和剪接事件的复杂性。
- 优势:
- 可以识别
double-hop
和bridged
融合 - 可以提供更高的精度;但灵敏度低
- 可以提供更准确和完整的转录本信息
- 可以识别
- 劣势:
- 成本较高、运行时间长和错误率较高
- 低通量、碱基准确率较低(长读测序平台的限制)
- 测序深度较低
几种长读测序平台纠错策略:
可以考虑通过计算工具进行碱基错误纠正;如:isONcorrect;
isONcorrect 是一种纠正 nanopore 或 pacbio
单分子测序数据的软件,基于一种新的纠错图的方法,可以有效的去除噪声并提高单分子测序数据的准确性;可以获得
98.9-99.6%
的中位准确度
- ONT(Oxford Nanopore
Technology):可以提高原始reads的准确度到
99.6%
(new chemistries (e.g. Q20+) and base-calling algorithms) - PacBio(SMRT, single-molecule real-time
sequencing):开发高保真(
HiFi
)reads实现更高准确性的方法,HiFi
reads 是通过循环一致测序产生的,其中单分子的多次传递被用于获得一致性序列。可以提供99.8%
单分子read精度 - 混合测序:用短读数据纠正长读错误
长读测序的测序深度不可能很深,因此对于低表达的融合基因很难被捕获;或者没有足够的深度来检测融合事件
混合测序(二代+三代)
融合检测软件:IDP-fusion(Weirather et al.)
IDP-fusion
是一款结合短读测序和长读测序检测融合转录本的工具;具有较高的准确性、较低的假阳性
通过比较 SMRT
和 Illumina
组装表明,SMRT
测序鉴定的融合转录产物多5-10倍
融合软件检测策略
- GeneFuse: 从原始
Fastq
中查找能够Mapping
到两个不同的Region
的reads
;- 为获得更长的
read
,还对双端测序的reads
进行合并,以获得更长的reads
- 局限性:若提供的
fusion csv
文件中的区域存在重叠(这里的重叠是指对应于参考基因组上的碱基排布存在overlap
);可能造成假阴性,导致漏检;此外,不能检测fusion csv
文件内包含之外的融合事件,只能检测特定的设计好的融合事件 - 优势:假阳性低,融合事件可视化
- 为获得更长的
- Factera: 从带有
soft clipped
信息的bam
文件(如:bwa
)中查找融合断点,再以断点附近的reads
来判断两个断点是否满足融合事件的发生条件
如:有
gene w
和gene v
两者可能存在融合事件
(1)soft clipped reads
的剪切边界是潜在的融合断点
(2)如要判断两个断点是否支持发生某个融合事件,则需要对断点附近的
reads
进行比对
(3)判断条件:如果 R1
和 R2
来自融合序列,则 R1
的映射部分(非软剪切部分)应与
R2
的软剪切部分匹配,反之亦然
- DELLY:
适用于检测拷贝数变异和串联重复事件以及稳定重排(如:倒置、倒位或易位);能够确定基因组重排的全部范围,包括复杂事件,
- 专门用于存在具有不同插入片段大小的不同配对端测序的情况下进行
SV
检测
- 专门用于存在具有不同插入片段大小的不同配对端测序的情况下进行
References
[1] Ryley Dorney and others, Recent advances in cancer fusion transcript detection, Briefings in Bioinformatics, Volume 24, Issue 1, January 2023, bbac519, https://doi.org/10.1093/bib/bbac519