# LIHC **Repository Path**: xuanend/LIHC ## Basic Information - **Project Name**: LIHC - **Description**: 肝癌m6a分析 - **Primary Language**: R - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 1 - **Created**: 2023-05-08 - **Last Updated**: 2025-05-28 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # m6a相关基因在LIHC中的预后价值 ## 介绍 在肝癌中评价m6a相关基因的预后价值并构建预后模型 ## 要使用的R包 tidyverse tinyarray survival survminer glmnet patchwork pheatmap limma ggplot2 ggpubr ggthemes ggrepel clusterProfiler org.Hs.eg.db enrichplot TCGAbiolinks impute readxl corrplot ## 数据准备 从xena数据库中选择GDC TCGA中LIHC队列,从中下载基因表达数据,临床信息数据 ## 主要思路 我们有m6a相关基因33个。这个文章最初的构想是构建一个预后模型,这个预后模型是由多个基因构成的。而这些基因则是由那33个m6a相关基因中挑选出来的。但是这个过程目前来说太简单了。只有一个建模的过程,结果只够出一张图。我们后面应该需要比较不同临床特征中风险因子的高低。首先,在这33个基因中挑选出对预后有影响的基因。对这些基因进行PPI分析,构建蛋白互作网络,并将网络中表达的基因都作为建模的候选基因纳入到后续的分析中。对候选基因进行lasso回归,剔除掉共线性强的基因,挑选出特征基因。 ## 结果汇总 1. 单变量cox回归从筛选有预后价值m6a基因 2. 预后m6a基因的PPI网络筛选hub基因 3. PPI网络hub基因lasso回归构建风险因子 4. 风险因子高低组间的基因表达差异与功能分析结果 5. 不同临床特征间风险因子评分比较与高低风险组间临床特征的比较 6. 风险因子评分与免疫微环境的关联(选) 7. 药物数据库的敏感性分析(选) 8. 肿瘤驱动基因与风险因子的关联性(选) 9. 风险因子在多个验证数据集中的表现 ## 分析日志 ### 一 在LIHC的队列中提取33个m6a相关基因的表达信息,对大约300个患者进行聚类之后的结果不行。一致性聚类,NMF聚类结果都不行。从可视化结果来看,没有分的很明显,经过NMF聚类可以看到分成3类是最好的,但是生存差异不明显。根据m6a基因集进行GSVA评分,按分数分组比较生存差异也没有统计学意义。比较LIHC中正常样本与肿瘤样本m6a基因的表达水平差异,也没有统计学意义。 ### 二 尝试了一下lasso回归,在33个基因里面通过剔除掉表达量过低的4个基因,从剩下的19个基因中挑出来了7个基因,分别是IGFBP2, METTL3, MSI2, KIAA1429,YTHDC1, ZC3H7B, ZCCHC4,用他们构建风险因子在TCGA中的生存分析中也是有意义的。 在STRING数据库里面,搜索了这7个基因的蛋白质互作网络,挑出来了11个具有相互作用的基因,分别是METTL4, METTL14, NCBP1, METTL3, RBM15, RBM15B, WTAP, YTHDC1, ZC3H13, CBLL1, KIAA1429。这11个基因里面有3个是与lasso回归共同的基因即METTL3, KIAA1429, YTHDC1。METTL3基因编码MT-A的70kda亚基,该亚基是n6-腺苷甲基转移酶的一部分。该酶参与真核mrna中内部腺苷残基的转录后甲基化,形成n6-甲基腺苷。KIAA1429又名VIRMA,可激活RNA结合活性。参与mRNA选择性聚腺苷化和mRNA甲基化。位于细胞质和核粒中。与RNA的n6-甲基腺苷甲基转移酶复合物共定位。YTHDC1激活含有n6-甲基腺苷的RNA的结合活性。参与mRNA从细胞核输出、mRNA剪接位点选择、以及基因表达的调控。位于核斑和质膜中。 ### 三 再换个思路,在33个m6a相关基因里面,通过单变量cox回归挑选出其中与预后关联的基因,共有9个HNRNPC, IGFBP2, METTL3, MSI2, RBMX, TRA2A, KIAA1429, YTHDC1, ZCCHC4。我们把这9个基因放到STRING数据库里面,搜索和它们存在相互作用的蛋白质构建互作网络,并对网络进行聚类。我们挑选了前两个聚类网络的基因作为hub gene供后续分析。两个聚类网络中的成员基因是1类网络中的HNRNPU, HNRNPA1, HNRNPA2B1, HNRNPL, HNRNPA0, HNRNPK, TRA2B, HNRNPH1, PTBP1, RBMX, HNRNPC, HNRNPF, HNRNPR, HNRNPM,以及2类网络中的METTL3, KIAA1429, CBLL1, METTL14, NCBP1, WTAP, RBM15, ZC3H13, YTHDC1。 单变量cox回归之前还是得提前剔除掉表达量过低的基因,如前述从剩下的19个基因里面进行单变量cox回归挑选基因,共选出来7个基因是IGFBP2, METTL3, MSI2, RBMX, KIAA1429, YTHDC1, ZCCHC4。然后把这些基因放进STRING数据库里面,搜索互作蛋白网络和聚类。把聚类得到的3个网络中的所有基因都当做hub gene纳入后面的建模中。 相关参数设置,minimum required interaction score设定为medium confidence(0.400),1st shell的max number of interactors to show设为no more than 20 interactors。 针对26个PPI中的hub gene,剔除掉其中表达量过低的8个基因,剩下18个基因,对这18个基因进行lasso回归后,挑选出了6个特征基因IGF1, IGFBP2, KIAA1429, METTL3, MSI2, YTHDC1。这其中除IGF1以外的5个基因都是m6a相关的基因。 分析了一下6个基因的突变情况,基本上突变频率都为0。所以突变方面的分析应该是不用深入了。 ### 四 高低风险组间的免疫浸润水平比较没有意义。 和免疫微环境中各组分的相关分析中,风险因子评分与T.cells.CD4.memory.resting,T.cells.CD4.memory.activated,Monocytes,Macrophages.M0,Neutrophils这些免疫细胞的关联性是有统计学意义的。