2023-06-19 09:47:51 来源:个人图书馆-DrugAI
今天为大家介绍的是来自Christina V. Theodoris和Patrick T. Ellinor团队的一篇基于迁移学习发现关键调控因子和潜在治疗靶标的论文。基因网络的映射需要大量的转录组数据,以学习基因之间的连接关系,这在数据有限的环境中,包括罕见疾病和临床无法接触的组织中,会阻碍发现。最近,迁移学习通过利用在大规模通用数据集上预训练的深度学习模型,然后对有限的特定任务数据进行微调,革新了自然语言理解和计算机视觉等领域。在这里,作者开发了一种上下文感知、基于注意力机制的深度学习模型,名为Geneformer,它在约3000万个单细胞转录组的大规模语料库上进行了预训练,以实现在网络生物学中有限数据环境下的上下文特定预测。
映射基因网络结构需要大量的转录组数据来学习基因之间的连接关系,这在数据有限的环境中,包括罕见疾病和临床无法接触的组织中,阻碍了网络修正型药物的发现。尽管在这些环境中数据仍然有限,但最近测序技术的进步推动了人类组织中可用的转录组数据量的快速扩展。此外,单细胞技术进一步促进了观察转录组状态的能力,这可能为推断网络相互作用提供更精确的数据,特别是在由多个细胞类型失调驱动的疾病中。
最近,迁移学习通过利用在大规模通用数据集上预训练的深度学习模型,革新了自然语言理解和计算机视觉等领域。这些预训练模型可以通过有限的任务特定数据进行微调,以适用于各样的下游任务,但当单独使用这些数据时,模型很难产生有意义的预测。与为每个任务重新训练新模型的建模方法不同,这种方法将在大规模预训练阶段学到的基础知识普及到与预训练学习目标不同的许多下游应用中,将知识转移给新任务(图1a和)。自注意机制的出现进一步改变了深度学习领域,通过生成能够关注大量输入空间并学习在每个上下文中最重要的元素的上下文感知模型,提高了各种应用的预测能力。基因调控网络结构高度依赖上下文,同时基于注意力的模型,即Transformer,可能非常适合上下文特定的网络动态建模。
(资料图片)
图 1
作者开发了一种上下文感知、基于注意力机制的深度学习模型,名为Geneformer,它在大规模转录组数据上进行了预训练。作者构建了一个大规模的预训练语料库,名为Genecorpus-30M,其中包含来自公开可获得数据的广泛组织的2990万个人类单细胞转录组,使用自监督的掩码学习目标在该语料库上对Geneformer进行了预训练,以获得对网络动态的基本理解。预训练的Geneformer通过上下文感知的方法准确预测了剂量敏感性疾病基因及其下游靶点。此外,通过使用有限的特定任务训练示例,将Geneformer微调为与染色质和网络动态相关的多样化下游任务的模型,证明了Geneformer能够提高预测准确性。
架构以及预训练
Geneformer是一种上下文感知、基于注意力机制的深度学习模型,它在大规模转录组数据上进行了预训练,通过迁移学习实现了在网络生物学中有限数据环境下的预测能力(图1a)。Geneformer利用了自注意力机制,以保持对每个单细胞转录组中表达的基因的关注,并学习哪些基因在优化预测准确性时最重要。重要的是,网络动态可能因细胞类型、发育时间点或疾病状态而异。因此,上下文感知是Geneformer模型架构的独特优势,它允许对每个细胞上下文进行特定的预测。
首先,作者组装了一个大规模的预训练语料库,名为Genecorpus-30M,其中包含来自公开可获得数据的广泛组织的2,990万个人类单细胞转录组(图1b)。作者排除了具有高突变负荷(例如,恶性细胞和免疫细胞系)的细胞,这些突变可能导致网络重构,而没有伴随的基因组测序。作者建立了可扩展的筛选指标,以排除可能的双细胞和/或损坏细胞。
然后,每个单细胞的转录组以排名值编码的形式呈现给模型,其中基因根据其在该细胞中的表达,经过Genecorpus-30M全局表达的归一化排名(图1c)。尽管基于排名的表示方法存在局限性,包括未充分利用转录计数中提供的精确基因表达测量,但排名值编码提供了每个单细胞转录组的非参数表示,并利用了Genecorpus-30M中每个基因表达的许多观察结果,以优先考虑区分细胞状态的基因。具体而言,该方法通过将广泛高表达的基因归一化到较低的排名来降低它们的优先级。相反,转录因子等基因在表达时可能表达水平较低,但在区分细胞状态方面具有较高的能力,将在编码中移至较高的排名位置。
每个单个细胞的转录组的排名值编码然后通过六个Transformer编码器单元进行处理,每个单元由自注意力层和前馈神经网络层组成(图1c)。预训练是通过使用掩码学习目标来完成的,在其他信息领域中已经证明可以提高预训练期间所学基础知识的泛化能力,以适应广泛的下游微调目标。在预训练期间,每个转录组中的15%基因被掩盖,并且模型经过训练,利用剩余未掩盖的基因的上下文,预测应该位于特定细胞状态下每个掩盖位置的基因。这种方法的一个主要优势在于它完全是自监督的,并且可以在完全没有标签的数据上进行,这使得可以包含大量的训练数据,而不仅限于伴随标签的样本。
上下文感知和批处理整合
对于Geneformer所展示的每个单细胞转录组,模型将每个基因嵌入到一个256维的空间中,编码了与该细胞上下文相关的基因特征。作者首先测试了预训练的Geneformer对基因嵌入是否受常见批次相关的技术的影响。作者发现基因嵌入对测序平台、保存方法和个体患者变异具有鲁棒性。然而,基因特征依赖于细胞中其他基因的上下文,凸显了Geneformer的上下文感知性。当作者通过在其排名值编码的前部人工添加OCT4、SOX2、KLF4和MYC来模拟重编程成纤维细胞时,转录组中的其他基因明显地向iPSC状态偏移其特征。iPSC源性肌肉细胞中的基因特征也表现出类似的上下文感知性。接下来,作者整合了每个细胞中表达的基因的特征,生成了细胞级别的特征,这些特征编码了该单个细胞状态的特征。以公开可用的主动脉瘤数据集作为测试案例,可以发现尽管原始数据受到患者间变异的影响,但Geneformer的细胞特征主要按细胞类型和表型进行聚类,而不是按独立患者。鉴于预训练的Geneformer的细胞嵌入对这些技术影响具有鲁棒性,作者接下来测试了微调是否会影响泛化能力。使用公开可用的iPSC分化为心肌细胞的数据集作为测试数据,该数据集在Drop-seq(单细胞)或DroNc-seq(单核)平台上进行了并行测定,作者测试了使用一个平台的数据微调模型以区分细胞类型是否会降低在另一个平台上的泛化能力。有趣的是,经过微调的Geneformer的细胞嵌入主要按细胞类型进行聚类,并且与原始数据相比,即使在使用ComBat或Harmony方法去除批次效应后,也显示出对平台的整合性的改善。
基因剂量敏感性预测
图 2
接下来,作者测试了Geneformer在各种下游微调应用中是否能够利用有限的数据提升预测性能。在遗传诊断中解读CNV(copy number variants)的一个主要挑战是确定哪些基因对其剂量变化敏感。作者使用先前报道的基因集,这些基因集被认为对剂量敏感或剂量不敏感,仅使用10,000个随机单细胞转录组来微调Geneformer,以区分剂量敏感和剂量不敏感的转录因子。与其他方法相比,经过微调的Geneformer显著提升了预测剂量敏感性的能力(AUC为0.91)(图2a)。值得注意的是,尽管使用了相同数量的有限任务特定数据进行微调,但预训练使用更大更多样的语料库提高了下游任务中的预测能力(图2b)。
然后,作者想知道在没有进一步的训练下,经过微调的模型是否能够预测最近报道的一组疾病基因的剂量敏感性(图2c)。Collins等人分析了753,994个个体的CNV,以确定与神经发育性疾病主要相关的基因,分为高度或中度可信度。经过微调的Geneformer模型在特定胎儿脑细胞的上下文中,准确预测了与高度可信的基因相关的剂量敏感性,与原始研究相比准确率达到了96%。中度可信度基因是一个更宽容的集合(得分范围为0.15-0.85,高度可信度得分阈值大于0.85)。经过微调的Geneformer预测在胎儿脑细胞中中度可信度基因的剂量敏感性,与原始研究一致性达到了84%。
接下来,作者设计了一种基于模拟的删除方法,以识别在特定细胞环境中预测删除会产生有害效应的基因。作者通过从细胞的排名值编码中移除基因,并量化剩余基因在编码中的特征效果来模拟基因的删除。为了测试这种方法,作者使用预训练的Geneformer在胎儿心肌细胞中进行了基于模拟的删除,没有进行任何微调。已知的心肌病和结构性心脏病基因的模拟删除效果明显大于已知的高脂血症基因对照组,后者在心肌细胞中表达并与心脏疾病相关,但其表型影响的细胞类型不仅限于心肌细胞(图2d)。
总的来说,预测其删除将对心肌细胞产生最严重影响的基因,显著地富集于包括心肌病和异常心肌形态在内的人类表型。在具有最显著影响的前25个被删除的基因中,有一些是已知调控心肌发育的转录因子,也有完全新的剂量敏感基因候选者,例如TEAD4。实验验证显示,通过CRISPR介导的候选TEAD4在诱导的多能干细胞(iPSC)衍生的心脏微组织中的敲除,导致其产生收缩应力(单位面积的力)的能力显著降低(图2e)。TEAD4是参与Hippo信号通路的转录因子,未来的工作需要进一步研究其在心脏发展中的角色。
染色质动态预测
图 3
众所周知,二价染色质结构标记着胚胎干细胞(ESCs)中的关键发育基因。二价领域由大片的H3K27me3区域组成,内含较小的H3K4me3区域。作者对Geneformer进行了微调,以便使用来自约15,000个ESCs的转录组,区分被二价标记的基因和那些启动子未甲基化或仅被H3K4me3标记的基因。用于这种微调的标记基因集仅包括在56个保守的基因组区域中发现的基因。与其他方法相比,Geneformer显著提高了预测二价标记基因的能力(AUC 0.93和0.88;分别为二价对比未甲基化或仅H3K4me3标记)(图3a,b)。此外,预测可以推广到从微调中排除的基因组的其余部分(图3c)。
确定转录因子结合影响下游表达的基因组距离对于解释调控变异和从转录因子基因组占据数据中推断目标基因是非常有价值的。作者对Geneformer进行了微调,以便仅使用约34,000个细胞从诱导的多能干细胞(iPSC)到心肌细胞的分化过程中的单细胞转录组来区分这些远程与近程的转录因子,没有用相关的ChIP-seq或基因组距离数据。再次,与其他方法相比,Geneformer显著提高了预测转录因子的调控范围的能力,而其他方法的预测几乎是随机的(图3d)。因此,微调预训练的Geneformer模型甚至能够提高对这种更高阶转录因子属性——调控范围的预测。
网络动态预测
图 4
确定基因网络中的层次关系使得可以设计瞄准核心调控元素正常化的疗法,这些元素驱动着疾病过程,而不是矫正可能并非疾病改变的下游效应因子。作者测试了Geneformer是否可以被微调,以便仅使用来自Heart Atlas中大约30,000个正常内皮细胞(ECs)的单细胞转录数据,来区分N1依赖性基因网络中的中心因子与边缘因子,而无需任何扰动数据。再次,Geneformer显著提高了预测中心因子与边缘因子的能力,相比于其他方法(AUC 0.81)(图4a)。此外,将预训练的Geneformer在Heart Atlas ECs上进行微调,能够在没有任何扰动数据的情况下,区分N1的下游目标与非目标,进一步展示了该模型编码基因网络动态关键特性的能力,并再次显著提高了相对于其他方法的预测能力(图4b)。
随后作者发现,即使将微调数据减少到仅5,000个ECs,预测能力也几乎相同(图4c)。然后,为了确定Geneformer是否能够在任务特定数据与学习目标更相关的情况下,使用更少的微调训练样本生成有意义的预测,作者仅使用健康和扩张主动脉的884个ECs14对预训练的Geneformer进行微调。有趣的是,Geneformer能够在这个非常少的数据上微调,比在大约30,000个ECs32的更大数据集上训练的其他方法的预测更好地区分N1依赖网络中的中心与边缘因子,这展示了预训练在能够从越来越有限的数据中做出预测的强大力量(图4d)。
基因调控网络分析
图 5
鉴于基因特征反映了网络的注意力权重的联合输出,作者测试了预训练的Geneformer在微调之前是否已经编码了转录因子和它们目标之间的网络连接。作者确定了在胎儿心肌细胞中特征最受GATA4删除影响的基因,GATA4是一个已知的先天性心脏病基因。删除GATA4对已知最显著受GATA4变异调控的基因影响最大,这在之前报道的GATA4相关心脏缺陷的iPSC疾病模型中已经描述过。值得注意的是,直接的GATA4目标(由ChIP-seq定义)在胎儿心肌细胞中的删除后受到的影响显著大于间接目标(图5a)。类似地,在胎儿心肌细胞中的TBX5删除后,另一个已知的先天性心脏病基因,对其直接目标(由ChIP-seq定义)的影响比对间接目标和内源基因的影响更显著。这些数据表明,在模型中扰动可以应用于模拟基因网络的连接关系。
治疗分析
图 6
接下来,作者测试了扰动策略是否可以应用于模拟人类疾病并揭示候选治疗目标(图6a)。首先,作者对Geneformer进行了微调,以区分来自非衰竭心脏(n = 9)或受到肥大(n = 11)或扩张(n = 9)型心肌病影响的心脏中的心肌细胞,总体样本外准确率为90%(图6b)。然后,作者确定了那些在非衰竭心脏的心肌细胞中进行删除或激活后,显著将Geneformer细胞特征向肥大型或扩张型心肌病状态转移的基因(图6c、d)。总的来说,该模型确定了447个预计其丧失会使心肌细胞向肥大型心肌病状态转移的基因,这些基因富集在已知影响肥大型心肌病发病机制的途径中,包括Titin结合和肌原纤维组织。该模型确定了478个预计其丧失会使心肌细胞向扩张型心肌病转移的基因,这些基因富集在涉及肌肉收缩和线粒体功能的途径中。然后,作者对患有肥大型或扩张型心肌病的患者的心肌细胞进行了计算机模拟治疗分析,以确定是否通过抑制或激活特定的生物通路可以将细胞特征向非衰竭心脏状态转变(见图6e)。对于肥大型心肌病,富集度最高的通路指向了一些可能的心肌细胞特异性治疗靶点,包括ADCY5,其失调与小鼠模型中的寿命延长和对心肌病的保护有关,以及可以药物化的靶点,包括SRPK3,这是MEF2的下游效应器,已知在心肌细胞肥大中起关键作用。
结论
总的来说,作者开发了一个基于深度学习的、具有环境感知能力的模型——Geneformer。它预先在大规模转录组数据上进行训练,使其能够在数据有限的情况下对下游任务进行预测。通过在预训练过程中观察大量的细胞状态,Geneformer获得了对网络动态的基本理解,并以完全自我监督的方式在模型的注意力权重中编码网络层次结构。Geneformer通过环境感知的计算机模拟删除方法预测剂量敏感性疾病基因的能力,对遗传变异的解释提供了有价值的工具,包括优先考虑驱动复杂特性的GWAS命中,并预测它们可能影响的特定组织。在胎儿心肌细胞中对剂量敏感性基因候选者TEAD4进行实验验证,支持了Geneformer在推动人类发育生物学认知方面的应用价值。应用于使用有限病人样本进行心肌病疾病建模的Geneformer预测了候选治疗靶点,这些靶点在iPSC疾病模型中的实验性靶向导致了显著的功能改善。因此,使用有限的数据进行计算机模拟治疗分析可能有助于在数不清的疾病中发现治疗方法,这些疾病以前因数据有限而受阻,因为它们罕见或影响临床难以接近的组织。
参考资料
Theodoris, C.V., Xiao, L., Chopra, A. et al. Transfer learning enables predictions in network biology. Nature (2023).
/10.1038/s41586-023-06139-9
标签:
- 加快虚拟仿真实训基地建设 启动职业学校信息化建设试点很必要
- “双减”后如何在满足学生多样需求方面做“加法”?
- 处于生理活跃期且心理发展不成熟 高校开设公共卫生必修课很必要
- 价格低于相应蔬菜零售价 西安投放约1万吨政府储备蔬菜
- 深受年轻消费群体所青睐 国潮风商品成为年货新选择
知识
- 他把银行卡卖给骗子,“黑吃黑”“截胡”十万元
- “老司机”4S店试驾豪车 结果油门当刹车撞了
- 新开工改造城镇老旧小区5.34万个
- 发动巡河志愿者2万余名 “用心护好每一条河”
- 假客服的套路:伪装成大平台客服,层层布局引人上钩
人物
- 当前热门:小鲨易贷网贷逾期7个月征信有什么影响
- 通讯!业界:搭平台促交流 助力中国白酒走向世界
- 视讯!LPR连续四月不变 专家预计短期内仍将持稳
- 环球热资讯!57.5% 网友赞成,马斯克或将卸任 Twitter CEO
- 提钱花网贷逾期半年会不会上征信_速看料
- 育碧正在为其《星球大战》游戏寻找测试人员
- 世界杯的阿尔法之战
- 别受伤!浓眉篮下被小卡晃飞 空中失去重心后背着地 当前速讯
- 世界新资讯:中油测井多相位定向光纤避射技术填补空白
- 天天快资讯:中材科技: 董事会决议公告
- 每日热门:锦程消费金融的一股东想彻底退出
- 深南电A董秘回复:关于您提出的问题,现回复如下:公司目前的主营业务为天然气发电,未涉及到核聚变反应相关业务
- 热议:伯特利: 芜湖伯特利汽车安全系统股份有限公司章程(2022年12月修订)(更正后)
- 宝钢包装(601968)12月15日主力资金净买入24.60万元 今日播报
- 鸥玛软件董秘回复:截至11月30日,公司股票持有数量15,896户
- 铂力特: 西安铂力特增材技术股份有限公司监事会关于2020年限制性股票激励计划首次授予部分第二个归属及预留授予第一个归属期归属名单的核查意见 今日报
- 济源市人民法院:加强失信曝光、法律文书电子送达 全球新要闻
- 【机构调研记录】中海基金调研楚江新材、伟星新材等4只个股(附名单)
- 世界通讯!一边要路权,一边要停车,占路20余年车棚这样拆违腾路
- 环球热消息:独家资金:早盘主力买入前10股
- 免费可商用!荣耀HONOR Sans字体来了 附下载
- 在南洋与中文相遇(阅读时光)_短讯
- 源杰科技(688498)新股概览,12月12日开始网上申购-视焦点讯
- 中欣氟材董秘回复:谢谢您对本公司的关注,目前公司钠电池电解液添加液产品正在设计及设备订购等前期项目准备中
- 头条:英集芯(688209)12月7日主力资金净卖出490.52万元
- 股票行情快报:石化机械(000852)12月6日主力资金净卖出3954.17万元
- 浙江两轮核酸检测结果均为阴性 无新增本土阳性感染者
- 新疆阿克苏地区库车市发生4.1级地震 震源深度18千米
- 抵返哈尔滨人员须持48小时内核酸检测阴性证明
- 浙大紫金港校区已解封 有7337人有序离开该校区
- 2021年广东省第七届风筝锦标赛落幕
- 黑龙江讷河市启动全员核酸检测 目前讷河市全员核酸检测结果均为阴性
- 【同心粤港澳 携手大湾区】南头古城,搭建深港澳三地文化创意活动交流平台
- 重庆入河排污口整治工作推进至全市26个区县
- 四川省第二批政法队伍教育整顿:立案审查调查省级政法机关干警58人
- 长三角区域生态环境部门“云签约”长江大保护倡议书
- 古老长城重焕新生机
- 藏不住了!你同事里有许多“武林高手”……
- 浙江杭州2例无症状感染者系感染德尔塔变异株
- 喜马拉雅的深情和誓言
- 浪漫之城打造山海城一体新地标
- 让老年人更适应数字生活
- 内蒙古通辽市新增1例本土确诊病例、1例无症状感染者
- 徐州无新增确诊病例 核酸检测55515人结果均为阴性
- 甘肃培树“农家巧娘”增技能:返乡创业掌勺又“掌柜”
- 内蒙古通辽市科尔沁区一地调整为中风险地区
- 上海本轮疫情涉及闭环管理的医疗机构全面恢复门急诊
- 青年学生成艾滋病感染高发人群 “社会疫苗”如何打?
- 内蒙古满洲里新增本土确诊病例1例 当地开展第二轮大规模核酸检测
- 江西无新增本土确诊病例 上饶全面恢复正常生产生活秩序
精彩阅读
- 中老铁路上会四国语言的列车长:用心维护中老友谊的桥梁
- 海南首次发现有环志的世界极危鸟种勺嘴鹬
- 一场“网络劝生者”和“网络劝死者”的战役
- 内蒙古通辽新增本土确诊和无症状感染者各1例 轨迹公布
- 江西中烟工业有限责任公司原总经理姚庆艳接受审查调查
- 宁夏45例新冠肺炎确诊病例均已治愈出院
- 内蒙古通辽市科尔沁区发现2名初筛阳性人员
- 生活在闹钟里的丈夫:自己迟一秒,渐冻症妻子就会多一分疼
- 辽宁新冠肺炎确诊病例零新增
- 11月28日16-24时,内蒙古新增本土确诊病例1例
- 奥密克戎毒株为何“需要关注”?现有防疫工具还有效吗?
- 黑龙江新增本土无症状感染者1例
- 这辈子一定要去趟这个公园 在这里“有种爱叫放手”
- 那年今日 | 一张漫画涨知识之11月29日
- 寒潮预警!我国中东部迎大范围降温 黑龙江等地降幅可达12℃
- 冷空气继续影响我国中东部 华北黄淮等地有雾和霾天气
