通过 Pacbio 测序从单细胞中获得全长异构体
在异构体水平上了解细胞异质性对于基础研究和疾病研究都至关重要。短读长只能捕获基因级信息,而其他长读长技术精准识别 UMI/条形码的准确率不够。在单细胞研究中,HiFi reads 可以实现准确的异构体检测。
基于PacBio平台HiFi read的单细胞全长转录组测序,首先通过单细胞分离技术(如10x Genomics的油包水液滴技术)将单个细胞进行分离后对每个细胞内的mRNA进行反转录,生成带有barcode和UMI标识的cDNA。利用PacBio的建库试剂盒(MAS-Seq 方法)将cDNA进行标记、连接和扩增,构建成适合PacBio测序的文库。最后,利用PacBio的测序仪对文库进行测序,获得包含5’UTR、3’UTR及Poly A尾的完整转录本序列。不需要复杂的条形码校正算法或正交测序数据。
使用 MAS-Seq 方法进行单细胞异构体测序,可以:
1)获得比常规单细胞 Iso-Seq 文库高 16 倍的通量
2)超越基因计数,获得全长异构体信息
3)在单细胞水平上描述完整的转录本异构体多样性
4)揭示细胞类型特异性的剪切异构体和表达变异


通过 ONT 测序从单细胞中获得全长异构体
单个单细胞之间或组织之间转录组学差异的表征,为基因组如何用于特殊功能(如神经疾病和癌症)提供了见解。然而,由于短读测序的读取长度有限,这些研究中的大多数恢复了有限的同工型和单核苷酸多态性(SNP)含量。借助最新的纳米孔测序技术,现在可以很容易地从全长cDNA中获得亚型水平的表达。使用PromethION Flow Cell进行测序,其输出为约80 M个分配的读数,最多可分析约8000个细胞(取决于每个细胞所需的读取深度)。

单细胞的RNA可以使用基于10x Genomics微流体的Chromium平台制备,该平台从单个细胞中产生条形码的全长cDNA。纳米孔测序与10x基因组学样品制备方法兼容,可用于测序全长转录物和剪接变体,提供有关同工型多样性和同工型转换的详细信息,例如在发育过程中。此外,长纳米孔读数能够检测基于RNA的基因分型和通常与癌症相关的基因融合的SNP。
使用短读单细胞(scRNA-seq)方法会遗漏80%的大多数转录本。这是因为短读测序要求全长转录本被片段化,并导致倾向于对转录本的3'或5'端进行测序。虽然这种方法适用于简单的基因计数,但它忽略了只能从完整的cDNA分子中获得的重要生物学信息。

纳米孔测序与短读测序的基因表达数据高度相关,同时也揭示了短读技术遗漏的细胞类型特异性替代异构体的使用 。

数据下机后,使用Oxford Nanopore的wf-single-cell分析流程对测序设备生成的原始纳米孔读长序列的输入文件(FASTQ)进行过滤和分析。分析流程包括去除低质量序列、序列比对、基因和异构体计数、细胞分群等。
英文标题:A spatially resolved brain region- and cell type-specific isoform atlas of the postnatal mouse brain
中文标题:出生后小鼠脑的空间分辨脑区和细胞类型特异性异构体图谱
研究背景:mRNA的选择性剪接(AS)影响了哺乳动物中几乎所有的剪接基因,极大地扩展了蛋白质组,并增加了细胞类型的功能多样性。替代转录起始位点(TSS)和多聚腺苷酸化(polyA)位点进一步扩展了替代亚型景观,调节发育、分化和疾病。这些RNA变量通常依赖于彼此,但他们的组合状态如何影响作用,只能使用长读测序来评估。长读长测序产生的序列不需要组装,从而减少了组装错误,使准确的亚型量化。
大脑中的可变剪接表现尤其多样化,剪接因子其他RNA结合蛋白驱动大脑区域特异的剪接。但是,目前还没有对跨大脑区域的细胞类型特异的mRNA异构体做的研究。本研究用单细胞RNA异构体测序的方法和空间转录组测序,对新生小鼠的大脑进行分析,得到了新生小鼠大脑的转录异构体图谱和空间转录信息,这些转录特点可能与各种神经发育、神经疾病有关,为进一步的研究提供了基础。
相关内容:
1.作者使用10X genomics 单细胞3‘试剂盒V2进行单细胞cDNA制备,使用HiSeq4000和NovaSeq S1进行scRNA-seq测序。对10X制备的cDNA进行扩增放大到500 ng后,构建SMRTbell文库,使用Sequel I和Sequel II平台进行ScISOrSeq全长转录组测序。scRNA-seq用于细胞分群,ScISOrSeq用于转录本亚型鉴定。

2.根据ScRNA-seq的分群和条形码信息,作者利用长读长数据对HIPP和PFC进行了全长转录本分析,成功评估了利用外显子和转录本数据评估外显子使用的差异。外显子测序数据评估得到了31个基因(1.45%,n = 2132)显示出外显子使用的差异。与之相比,使用基因水平检验比较HIPP和PFC亚型时,有395个基因表现出DIE(差异亚型表达)。在395个表现出区域DIE的基因的前两个贡献亚型中,鉴定出了76个高度可信度的新亚型。其中40个(52.6%)在功能上是编码转录本,24个(31.6%)显示无意义介导的衰变(NMD),11个(14.5%)显示内含子保留,1个是长链非编码基因。这种非编码和NMD转录本表明了区域特异性的调控。其中141个(395个)基因表现出不同的TSS或polya位点使用,剩下的254个基因可以用剪接位点的使用差异来解释。作者发现Nsfl1c的一个6nt的微外显子亚型优先表达在神经元和胶质细胞类型的HIPP中,但在相同的PFC细胞类型中不存在,其编码辅助因子p47,调节管状内质网的形成,影响神经元树突棘的形成和树突分枝。另一个发现是突触基因Nsmf,其参与cAMP通路,并通过其蛋白的核易位,参与记忆形成。数据发现,该基因主要的HIPP亚型在PFC中缺失,而第二个HIPP亚型代表了该基因的PFC的大部分表达。这些亚型的不同之处在于一个69nt的外显子,具有核定位信号和两个突触靶向元件之一。这个外显子可能会影响该蛋白所参与的突触到细胞核的信号传导。第三种Nsmf亚型具有69nt外显子,但缺乏6nt微外显子,在PFC中超过HIPP,但在神经元细胞中完全缺失,突出了微外显子在神经元功能中的调节作用。

3. 根据基因表达转录本相似性定义细胞类型层次,作者首先是神经元和非神经元分开,然后由其他细胞类型分开。因为抑制性神经元类型在转录上比兴奋性更相似,作者将复合抑制性神经元(IN)更精细分成抑制性神经元亚型(IN1、IN2、IN3)划分为,将兴奋性神经元亚型划分为兴奋性神经元(EN)。作者假设了三种替代模型,可以导致大脑区域间亚型表达的差异:1)多种或所有细胞类型改变剪接变异(“双细胞类型模型”);2)单一细胞类型改变剪接变异(“单细胞类型模型”);或3)表达变化或细胞类型丰度无任何变化(“无细胞类型模型”)。对395个DIE基因分别分析神经元和非神经元发现,26个基因(6.6%,FDR< = 0.05)在神经元和非神经元双细胞类型模型有DIE,151(38.2%)神经元和81(20.5%)只有在神经元细胞呈单细胞类型模型,和137(34.7%)可能因太低表达在神经元和非神经元细胞无细胞类型模型。当将神经元分为兴奋性和抑制性亚型时,发现单细胞型模型为78.8%(±2.97),双细胞型模型为19.58%,非细胞型模型为1%。当将复合非神经元细胞分离成胶质细胞和血管+免疫细胞时,当将胶质细胞分离成星形胶质细胞和少突胶质细胞,然后将血管+免疫簇分离成血管和免疫细胞时,观察到类似的趋势。单细胞型模型比双细胞型模型和非细胞型模型更为普遍。显性单细胞型模型的一个例子是六聚糖氨酸酶A(Hexa),除了单一注释的亚型,PFC兴奋神经元显示内外显子包含明显减少(从HIPP的81%包含到22%),从而表达了一种新的亚型。其他类型的细胞在HIPP和PFC之间没有差异。验证将这种新的亚型归类为脑区和细胞类型特异性的NMD。结果表明,不同脑区域的不同亚型表达主要由一种特定的细胞类型控制。

参考文献:Joglekar, A., Prjibelski, A., Mahfouz, A. et al. A spatially resolved brain region- and cell type-specific isoform atlas of the postnatal mouse brain. Nat Commun 12, 463 (2021).
下载网址:https://www.nature.com/articles/s41467-020-20343-5
英文标题:
High-throughput RNA isoform sequencing using programmed cDNA concatenation
中文标题:
利用全长转录组多重阵列测序检测RNA同源异构体
研究背景:
选择性剪接是一个核心调控过程,在转录本成熟过程中通过外显子的差异剪接(DS;differential splicing)调节mRNA的编码序列、翻译效率、稳定性和定位。选择性剪接不仅是细胞/组织发育和稳态的组成部分,还涉及广泛的病理学,其特殊异构体与心血管、神经和免疫疾病也紧密相关。此外,突变和/或失调的剪接因子也构成了与肿瘤发育和治疗耐药性相关的一类主要表型的改变。
由于二代测序平台测序读长通常为50-600 bp,不足以跨越大多数人类转录本(1.6±1.1 kb)。因此二代测序的短读长通常无法跨越连续的剪接位点,从而影响了识别正确的转录同源异构体。最近开发的一种短读测序方法Smart-seq3,通过整合具有相同5′唯一分子标识符(UMI)实现单分子重建,从而增强了异构体检测。然而,由于Smart-seq3的5′覆盖偏好,大多数转录本仅部分重建,导致异构体鉴定和查找效果并不佳。三代平台Oxford Nanopore(ONT)和PacBio能够实现全长RNA同源异构体测序,但其通量相对较低,成本较高,限制了其在RNA同源异构体检测中的运用。长读长测序平台较高的碱基错误率经过基于孔的核苷酸读数、循环一致性测序(CCS或HiFi)和单个文库分子的一致性生成策略得到了改进。在Sequel IIe仪器的CCS序列达到~10循环的最佳文库大小为15-20 kb,碱基质量能够达到Q30。由于转录本长度(单个转录本的平均长度为100bp-5kb)短于文库大小,使用标准Iso-Seq方案(PacBio)对单个环化互补DNA(cDNA)分子进行CCS会产生过多的循环(50–60),会造成大量的测序浪费,导致其无法有效地利用三代测序平台的测序潜力。
相关内容:
1.作者开发了一种将DNA片段可编程串联成长复合序列分子的方法,即多路阵列测序(MAS-seq;multiplexed arrays sequencing)。当MAS-seq用于转录本同源异构体测序时,我们称之为MAS-isoform-seq(MAS-ISO-seq)。结合通过链亲和素/生物素选择上游消除TSO引物,然后将纯化的cDNA文库拆分为平行的PCR,这既可以提高cDNA产量,又可以附加含有反应特异性脱氧尿嘧啶(dU)的barcode接头。MAS-ISO-seq使用dU消化,然后通过barcode定向连接cDNA,生成具有短长度分布的固定组装的长串联cDNA阵列,从而实现准确的一致性测序和PacBio长读平台的最佳测序通量的利用。为了确保准确和特异的互补配对,作者设计了长度为15bp的barcode接头,每个barcode与所有其他barcode的汉明距离(Hamming distance;两个字符串对应位置的不同字符的个数)为11。MAS-ISO-seq将测序量提高到每个 Cell 约4000万全长转录本,比CCS校正的reads增加了15倍以上。为了证明MAS-ISO-seq的性能,研究人员从肿瘤浸润的CD8+T细胞的两个5′单细胞基因表达cDNA文库(10× genomics)中进行了15个成员的cDNA连接。正如预期的一样,研究人员发现连接后cDNA文库长度增加了约15倍。MAS-ISO-seq文库经过标准CCS文库制备,并在PacBio Sequel IIe上测序。因为串联文库长度更长,所以测序文库显示出校正的读取长度和循环通过计数分布,与标准同种型测序方法Iso-Seq以及全基因组CCS数据相比更具可比性。
为了验证MAS-ISO-seq准确识别RNA同源异构体的能力,作者对Lexogen SIRV-Set 4进行了全长RNA测序,这是一种由spikein RNA变体(SIRVs)组成的合成混合物,包含跨越7个“基因”的69个不同长度和等质量浓度的RNA异构体,15个长(4 - 12 kb) SIRVs和92个ERCC RNA标准物,浓度跨度为6个数量级。通过对SIRV-Set 4文库进行Smart-seq3短读测序,研究人员对短读长和高通量长读长测序方法也进行了进一步的比较。尽管两种方法之间ERCC标准的定量总体上大致相似,但与Smart-seq3相比,MAS-ISO-seq和Iso-Seq的长同种异构体的长度偏差明显减少。Smart-seq3同源异构体重建在将重建转录本分配给特定的已知同源异构体时表现出相当大的模糊性(错误率~43%)。相反,MAS-ISO-seq能够直接鉴定转录本同源异构体,而不需要进行额外的分析,因此其同源异构体的分配率展现出了较高的正确率(~0.4%错误率)。

2.为了进一步表征MAS-ISO-seq在单细胞RNA测序中的性能,研究人员使用cDNA文库进行了测试,即对肿瘤浸润的CD8 + T细胞进行了10x Genomics 5’端单细胞测序。通过使用标准的5′单细胞基因表达方案,研究人员从相同的全长cDNA文库中分别生成了标准的短读长文库和MAS-ISO-seq长读长测序文库。在利用常规的QC过滤步骤并分离原发性肿瘤细胞(方法)后,研究人员共计获得了5270个CD8+T细胞,其中包含4041个UMI/细胞(短读长测序数据)和1701个UMI/细胞(长读长测序数据)的中位数。其中,短读长的测序饱和度更高,分别为1.98个序列/UMI(短)和1.22个序列/UMI(长)。随后,研究人员也利用样本中少量原发性肿瘤细胞与几种免疫和肿瘤基因的互斥表达,对MAS-ISO-seq cell barcode(CBC)的准确性进行了检测,结果发现其准确性在99.0-99.7%之间。尽管二代(短读长)和三代方法(长度长)和定量方法在测序深度上存在较大差异,但细胞聚类和基因表达确高度一致。且在这两个数据集中都观察到了一组常见的从干细胞样到终末分化的T细胞转录状态。
为了量化MAS-ISO-seq的测序深度对细胞分型和差异剪接基因(DS; differentially spliced)鉴定的影响。研究人员使用相同的pipeline对每个数据集进行了相同的数据处理,并计算了每个样品的长读长测序数据和完整短读长测序数据集的细胞聚类之间的ARI作为参考。同时通过ARI电子下采样分析确定了每个数据集T细胞同源异构体中差异剪接基因的数量,与Iso-Seq预期运行的读取深度(2-4 M HiFi通过过滤的reads)相比,MAS-Iso-Seq提供的通量增加意味着短读和长读取长测序单细胞聚类之间的ARI增加了34-47%并达到了饱和,且在识别DS基因方面增加了12-32倍。值得注意的是,多个DS基因与一组差异表达(DE)基因不同。

MAS-ISO-seq与细胞图谱研究中生成的单细胞cDNA文库的兼容性为直接推进异构体发现和大规模生成细胞类型特异性异构体解析转录组参考奠定了基础。此外,MAS-ISO-seq也可进一步加强深入的开发工作,包括基因融合鉴定、蛋白基因组解析、新抗原发现和TCR/BCR序列测序。到目前为止,PacBio和ONT已经推动了长读测序的变革性进展,发布了新的平台和化学试剂,提高了碱基水平的准确性和测序通量(例如Revio和Q20+)。鉴于MAS-ISO-seq的模块化和可扩展性,该工作流程可以与兼容的长读长测序平台协同发展,随着读长、产出量和碱基精度的提高,实现更大的测序通量。
参考文献:
Al’Khafaji, A.M., Smith, J.T., Garimella, K.V. et al. High-throughput RNA isoform sequencing using programmed cDNA concatenation. Nat Biotechnol 42, 582–586 (2024).
下载网址:
https://www.nature.com/articles/s41587-023-01815-7
英文标题:
Integrating short-read and long-read single-cell RNA sequencing for comprehensive transcriptome profiling in mouse retina
中文标题:
整合短读长和长读长的单细胞RNA测序用于小鼠视网膜的全面转录组分析
研究背景:
小鼠视网膜是一个复杂的神经元组织,由超过130种独特的神经元细胞类型组成,分为7个主要细胞类。在每个主要类中,细胞可以进一步分类为子类和细胞类型。每种细胞类型在其形态、功能、位置和转录组谱上都有所不同。pre-mRNA的选择性剪接是增强转录组和蛋白质组多样性的关键机制,它在细胞的分化和生物体的发育中起着关键的作用。与其他神经组织类似,视网膜表现出显著的组织特异性剪接事件的富集。先前的研究努力揭示了视网膜特异性剪接的各个方面,包括识别视网膜特异性外显子、转录异构体和剪接调控因子。全面了解表达的转录亚型,以及深入了解视网膜细胞类型特异性剪接事件以及单细胞水平上转录亚型的表达模式,对于理解剪接和基因调控的潜在机制是必不可少的。此外,单个细胞类型环境中剪接异构体的完整目录可以指导准确预测视网膜相关疾病中遗传变异的影响。单细胞rna测序(scRNA-seq)已被广泛用于表征不同神经元组织中的细胞特异性转录组差异,但scRNA-seq数据主要由短读测序技术组成,仅限于对转录本的5‘或3’端进行测序,限制了量化RNA转录本亚型的能力。长读测序是有效识别mRNA转录本中选择性剪接和序列异质性的理想技术,迄今为止,小鼠视网膜中的RNA转录亚型尚未在细胞类型特异性的背景下进行系统的注释和定量。
相关内容:
1.为了全面地对短读和长读单细胞测序技术的性能进行基准测试和评估,作者对两个来自野生型视网膜的生物复制物和两个富含无峰细胞(AC)和双极细胞(BC)的总共4个小鼠视网膜的样本进行基于10X单细胞分选的二代和三代测序。共获得超过3万个单细胞,产生了15.4亿Illumina短序列和14亿Nanopore长序列。测序获得了较高的读取覆盖率,平均每个细胞超过45,000次读取,并在短读和长读数据集之间显示出相当的深度。牛津纳米孔技术公司(ONT)的中位读取长度约为1000个碱基对,对应于全长转录本的平均大小。平均基本呼叫质量得分约为12.5,对应的估计错误率约为5.6%

2.首先在短读scRNA-seq数据集上进行细胞聚类和注释。为了比较长读和短读测序的性能,我们使用来自同一组样本生成的长读数据进行了细胞聚类和注释。通过短读测序识别的细胞条形码(CB)对通过质量过滤的长reads进行多路分离,得到四个样本中约5.18亿个长reads。在映射后进行细胞聚类,并使用已知的标记基因对结果的聚类进行注释。超过98.0%的细胞类分配(29,191个细胞中的28,606个)是一致的,而bc显示出99.8%的一致性。这种高水平的一致性在更高的细胞簇分辨率下也很明显。有趣的是,长读数据发现了另一种额外的BC类型BC4,在短读数据中遗漏了。作者进一步评估了基因表达的相关性,两种数在所有的细胞类别中都是一致呈现强相关,皮尔逊的r值在0.84到0.90之间,证明短读和长读数据集在细胞识别、聚类和注释方面表现出相当的敏感性和高一致性。

3. 长读取的关键优点之一是提高了检测转录本亚型的能力。为了评估长读测序方法在发现小鼠视网膜中不同细胞类别的剪接亚型方面的稳健性,作者对长读数据进行了详细的亚型分析,包括识别、分类和定量,共鉴定出44,325个转录本亚型。大多数转录本亚型(38247、86.2%)属于蛋白质编码基因。大约60%的亚型与已知亚型匹配,剩下的40%代表新的异构体。值得注意的是,新的亚型(NNC、NIC和融合)倾向于以较低的水平表达,这可以部分解释为什么这些亚型在以前的研究中仍未被检测到。因此,单细胞长读测序大大增加了检测到的亚型的数量。

在不同细胞类别中识别出的新亚型的数量差异显著,这余每个细胞类别的细胞数量相关。尽管原始亚型数量存在差异,但不同亚型类别在不同细胞类别中的总体分布相似。相比之下,不同亚型类别的比例因其表达模式的不同而显著不同。绝大多数亚型在至少三种细胞类型中表达,但约16.7%的亚型只在一个细胞类中表达。比较每个基因中最丰富的两种亚型的表达水平发现大约34%的基因在其前两个亚型中表现出一种新的亚型。大多数已知的亚型占总基因表达量的90%以上(具有显性亚型),而新的亚型的表达水平较低。

由于绝大多数基因表达多种亚型,因此研究基因在细胞类、亚类或类型中是否表现出差异的转录本使用(DTU)是很有趣的。与只有一小部分亚型显示出细胞类特异性表达的观察结果一致,一个特定基因的大多数亚型都倾向于在所有细胞类中表达。然而不同亚型的比例在不同的细胞类别之间差异显著。例如,Pcbp4主要在ACs中表达的转录本(黄色)在杆状细胞中表达较低,差异显著(p值= 1.06E-88)。一个转录本(深蓝色颜色)在杆状细胞中明显比在bc中更普遍(p值= 3.86E-98)。Prkcz的两种亚型,由15个外显子组成的亚型主要在ACs、BCs和RGCs中表达,而包含18个外显子的亚型在锥细胞、mg和杆状细胞中表达占90%以上。另一个例子是Impdh1,它与遗传性人类视网膜疾病,如Leber先天性黑内障(LCA)和色素性视网膜炎(RP)有关。作者鉴定了Impdh1的几个新的亚型,其中包括一个之前未报道的新的17bp的外显子,包含导致了阅读移码和ORF延伸(37个氨基酸)和另一个终止密码子。包含该外显子的转录本在bc、视锥细胞、mg和视杆状细胞中表现出显著的表达,在小鼠光感受器中表达的Impdh1的主要亚型并不是典型的Impdh1,这表明典型蛋白功能的改变可能不是视网膜变性的主要原因。分析无峰细胞和双极细胞亚类中的亚型使用模式也观察到的情况相似。说明基因在主要的视网膜细胞类别和亚类中表现出不同的亚型使用模式。此外,作者还确定了不同BC类型中亚型的不同表达模式,以及主要在特定细胞类型中表达的亚型。

4.使用长读长数据分析另外一个惊人的发现是发现了大量(1055个)潜在的融合转录本。这些融合的特征是两个基因的组合居多,也能观察到三个基因融合。作者评估融合基因的接近性发现明显相邻的融合包含更多的外显子。比较融合的丰度与相关基因中所有亚型的表达发现融合利用与其他异构体使用之间的比例分布较广其中有90个基因只在融合体中表达。这些基因的功能聚类指向了与免疫相关的通路的共同的通路。此外,通过对检测到的基因融合进行详细检查,作者还发现: (1)某些基因可以与多个其他基因合作,导致不同的融合。(2)一些融合经历了选择性剪接事件,这对于癌症和药物靶点相关的研究是有趣的。我们进一步评估了不同细胞类别之间的融合重叠,并确定了每个细胞类别所特有的某些融合,包括杆状细胞中164个,ACs中107个,BCs中27个。

5.为了评估测序深度对亚型检测的敏感性,并确定我们的测序是否达到饱和,作者通过随机抽取1%、10%和50%的数据集进行模拟,并使用同一pipeline进行分析。与预期的一样,检测到的亚型数量与分析中使用的测序reads数量呈正相关。但不同结构类别的isoform增长速度有所不同。少的读取数更倾向于识别跨细胞类的常见亚型。细胞类特异性亚型的鉴定尚未达到饱和,当数据集从50%扩展到其全部范围时,亚型数量显著增加了56.0%。

参考文献:
下载网址:
https://www.biorxiv.org/content/10.1101/2024.02.20.581234v1
英文标题:
Direct measurement of engineered cancer mutations and their transcriptional phenotypes in single cells
中文标题:
单细胞水平癌突变及其转录表型的直接检测
研究背景:
基因组测序研究已经在各种肿瘤类型中发现了许多癌症突变。许多这些突变导致氨基酸替换。考虑到发现的突变的绝对数量,确定具有功能特征的癌症替代的表型仍然是一个巨大的挑战。计算机模拟的功能预测癌症突变经常被用来作为一种解决方案。然而,这些计算方法不能提供更离散的生物学特性,仍然需要高通量方法,以有效的方式对许多突变进行功能评估。CRISPER基因编辑可以将多个变异引入目标基因组序列。这种可变性指出,需要直接对碱基编辑器目标位点进行基因型化,作为验证存在预期突变的最佳方法。如果要准确地确定表型,直接验证工程突变是必要的一步,而这需要检查单个细胞。一些研究已经使用报告系统来推断工程突变的存在,但这是一种间接的方法,并且假设在报告位点和内源性位点都发生了相同的基因组编辑,因此作者开发了一种方法来应对这些挑战并解决这些问题。
相关内容:作者使用单细胞cDNA在单细胞转录水平评估这些变异的存在。对于短读测序,作者使用5 '适配器引物和外显子特异性引物,从带有细胞条形码和独特分子标识符(UMI)序列的单细胞cDNA中扩增RACK1的外显子2或3(图1b)。利用sgRNA目标窗口的遗传坐标,在给定的读取条件下,识别出相应的细胞条形码、UMI和遗传变异。对于长序列测序,作者使用来自同一单细胞cDNA文库的5 '适配器和特异性于最后3 '外显子的引物扩增整个RACK1 cDNA。使用对齐的长读数据,作者确定了RACK1基因变异。作者比较了479,509个UMIs,在所有的目标位点中99.2%的UMIs平均具有相同的遗传变异。这一结果表明,CRISPER工程基因变异的长读识别具有很高的准确性。

2.作者开发了一种方法被称为转录信息的单细胞CRISPR测序(TISCC-seq)。这种方法依赖于CRISPR碱基编辑器,将多种内源性遗传变异引入给定的基因组目标。长读测序在单细胞分辨率上直接从目标的转录序列识别这些突变。作者首先引入了一组设计用于TP53多重突变的sgRNAs,并使用TISCC-seq获得了单个细胞的基因表达谱和TP53基因型。作者从单细胞cDNA文库中扩增TP53转录本,对其全长转录本进行测序,并从长读数据中确定TP53突变的存在。作者使用转导细胞基因组DNA的扩增子测序来独立评估TP53突变亚群的频率。该分析将每个TP53突变频率与分析HCT116细胞单细胞cDNA的结果进行了比较。这些TP53突变被有效引入,其中一个突变被引入的频率高达12.1%,27个突变被引入的频率大于0.25%。
单细胞cDNA和基因组DNA的每个突变的流行率通常是相关的。cDNA突变的低流行率可能反映了无义介导衰变(NMD)的作用。这一过程是一种监视机制,消除含有过早终止密码子的mRNA转录本。传统的利用sgRNA-seq进行单细胞CRISPR筛选的方法未能正确识别各单细胞间引入的变异体。相反,通过直接对单细胞的全长靶转录本进行长读测序,作者绕过了这个问题,直接从cDNA中识别出由碱基编辑器引入的实际突变。

3. 作者整合来自长序列的单细胞TP53突变基因型和来自短序列的单细胞基因表达谱数据。当比较野生型和TP53突变细胞之间的基因表达谱时,p53通路激活有明显的差异。接下来,作者对用TP53 sgRNA文库转导并被nutlin-3a激活的HCT116细胞测序,检测到169种不同的突变分布在不同的单细胞中。通过UMAP聚类,将具有野生型对TP53突变的细胞在不同的聚类中分离。野生型细胞主要聚集在第5和第9簇中。作者将存在突变但对基因表达表型没有显著影响标注为野生型,将其他的标注为具有重要功能。野生型或野生型样突变的细胞p53通路相关基因表达较高,野生型细胞的p53通路基因表达得分高于大多数表达功能显著TP53突变的细胞。与野生型细胞相比,具有功能显著突变的细胞p53通路活性更低,G2M检查点基因表达更高。此外,与野生型TP53细胞相比,表达R156C、V157I、V173A、R273C或A276V的野生型变异体细胞在这两种途径上没有差异。这些结果证明,该突变亚群具有与野生型相似的特征,因此功能影响较小。综上所述,野生型细胞的p53通路活性和相关基因表达高于具有显著功能TP53变异的细胞。这些结果验证了TISCC-seq方法对这些突变的高通量功能分类。

参考文献:
Kim HS, Grimes SM, Chen T, Sathe A, Lau BT, Hwang GH, Bae S, Ji HP. Direct measurement of engineered cancer mutations and their transcriptional phenotypes in single cells. Nat Biotechnol. 2023 Sep 11.
下载网址:
https://www.nature.com/articles/s41587-023-01949-8
©2024 - 我的网站 版权所有