胃癌是我国第2大肿瘤[1],5年生存率全球仅为10%[2],其高发病率和高死亡率严重威胁着人类健康,随着诊疗技术的发展,胃癌的发病率和死亡率在一些发达国家有稳步下降的趋势[3],然而,亚洲仍有很高的发病率[4],因此,深入探究胃癌的发病机制及新的治疗方法就显得尤为重要。近年来,大量生物标志物已应用于胃癌的早期诊断[5-6],然而,这些生物标志物并没有被很好的整合,并且,这些生物标志物可在多种肿瘤中被检测到[7-8],因此,对胃癌诊断和治疗的特异性靶点还需要进行深入的研究。
COL1A1是胶原家族的重要成员,被认为与癌症发生有关,COL1A1的异常表达在多种癌症中均有报道[9-11]。此外,Zang等[12]发现COL1A1在胃癌中存在差异表达,但COL1A1在胃癌中的临床意义仍不清楚。基因表达谱(GEO)数据库为癌症相关基因表达谱的生物信息学挖掘提供了可能[13]。本研究通过生物信息学方法筛选出胃癌芯片数据GSE79973中胃癌组织和正常胃黏膜组织的DEGs,对DEGs进行GO分析和KEGG通路富集分析,然后通过构建蛋白质-蛋白质相互作用(PPI)网络,筛选出Hub基因并验证,同时预测调控COL1A1的miRNAs,旨在为胃癌分子机制的进一步研究提供生物信息学依据,也为我们进行基因个体化治疗提供新的途径。
1 材料和方法 1.1 芯片数据来源本研究从GEO (https://www.ncbi.nlm.nih.gov/geo/)数据库下载基因芯片数据集GSE79973,芯片总共包含20例样本,其中10例正常胃黏膜组织和10例胃腺癌组织样本,其芯片平台是GPL570[HG-U133_Plus_ 2] Affymetrix Human Genome U133 Plus 2.0 Array,表达数据为expression profiling by array,种属为Homo sapiens。
1.2 数据处理用GEO2R(https://www.ncbi.nlm.nih.gov/geo/geo2r/)[14]在线工具分析胃癌样本与正常样本基因数据。将胃癌组织芯片GSE79973矩阵数据的探针名转化为基因名,对原始数据进行去重等处理后,以|logFC|>2且P < 0.01的标准筛选出DEGs,用SangerBox软件绘制火山图。
1.3 DEGs的富集分析为深入了解这些DEGs,我们用DAVID(the Database for Annotation, Visualization and Integrated Discovery,http://david.abcc.ncifcrf.gov/)在线分析数据库[15]对DEGs进行GO和KEGG通路富集分析[16-17],以P < 0.05为差异有统计学意义。
1.4 PPI网络构建和关键基因筛选通过在线分析网站STRING(Search Tool for the Rtrieval of Interacting Genes, https://string-db.org/)[18]得到DEGs的蛋白互作网络,以TSV格式导出,将所得源文件导入Cytoscape[19]进行可视化分析,用插件cytoHubba进行Hub基因分析,选用MCC算法,选取前10个Hub基因。
1.5 PPI功能模块分析为进一步明确胃癌可能的信号通路,我们在进行PPI网络构建后,用Cytoscape软件中MCODE插件对PPI网络进行聚类分析后得到PPI功能模块,然后用DAVID数据库将功能模块中的基因进行KEGG pathway分析。
1.6 关键基因验证分析为进一步验证Hub基因,我们利用GEPIA(Gene Expression Profiling Interactive Analysis, http://gepia.cancer-pku.cn)数据库[20]分析Hub基因在胃癌组织和正常组织中的表达水平,并绘制Hub基因的KaplanMeiter生存曲线。
1.7 COL1A1和microRNAs关系预测为了解COL1A1参与胃癌的发生发展机制,我们通过在线数据库Target Scan 7.2(http://www.targetscan.org/)预测与COL1A1相互作用的microRNAs。
1.8 microRNAs在胃癌组织的表达及其与生存预后的关系基于OncomiR数据库(http://www.oncomir.org)分析miRNA在胃癌组织和正常组织中的表达,并对其进行预后分析。
2 结果 2.1 胃癌和正常组织的DEGs通过对基因芯片GSE79973进行数据分析,结果显示有181个DEGs(胃癌组/正常对照组),其中上调基因和下调基因分别为57个和124个(图 1)。
![]() |
图 1 差异表达基因火山图 Fig.1 Volcano plot of the differential expressed genes in gastric cancer |
GO可分为生物过程(biological process, BP)、细胞组成(cellular component, CC)和分子功能(molecular function, MF)。采用DAVID对181个DEGs进行GO和KEGG通路富集分析,结果如表 1所示。DEGs主要涉及细胞黏附、细胞外基质组织、氧化还原过程、胶原蛋白分解代谢、异物的代谢等生物过程,细胞学组成分析显示这些基因大多参与细胞外泌体、细胞外基质、细胞外区等的组成。分子功能的变化主要集中在锌、铁离子结合、相同的蛋白结合、细胞外基质结构组成、肝素结合、氧化还原酶活性、血红素结合、氧气结合等。KEGG通路富集分析表明,差异基因主要涉及PI3K-Akt信号通路、ECM-受体相互作用、蛋白质消化吸收、化学致癌作用、视黄醇的新陈代谢、细胞色素P450代谢通路、矿物质的吸收、胃酸分泌等。
![]() |
表 1 胃癌相关差异表达基因的GO和KEGG通路富集分析 Tab.1 Enrichment analysis of GO and KEGG pathway of the differentially expressed genes in gastric cancer |
将181个显著差异基因输入STRING数据库中,然后将所得数据导入Cytoscape中,利用插件cytoHubba找出前10个Hub基因,分别为COL1A1、COL1A2、COL4A1、COL2A1、SERPINH1、COL6A3、COL11A1、COL10A1、COL12A1、COL8A1(图 2)。
![]() |
图 2 差异基因编码蛋白质的PPI分析图和关键基因筛选 Fig.2 PPI analysis of the proteins encoded by the differential genes and screening of the key genes. A: PPI network for the DEGs; B: Amplification of the network for PPI associated with COL1A1. |
我们用Cytoscape软件中MCODE插件对PPI网络进行聚类分析后得到不同的PPI功能模块,Score得分最高的模块如图 3所示。然后我们通过DAVID在线分析工具对模块中包含的基因进行KEGG pathway分析,主要涉及蛋白质消化吸收、PI3K-Akt信号通路、ECM-受体相互作用、血小板激活信号通路(表 2)。
![]() |
图 3 功能模块图 Fig.3 Functional module diagram |
![]() |
表 2 功能模块内基因的KEGG Pathway分析 Tab.2 KEGG pathway analysis of the genes in the functional modules |
用GEPIA数据库进一步验证分析了10个Hub基因在胃癌组织(408例)和正常组织(211例)的表达水平中的表达情况,发现除了COL2A1在胃癌组织中低表达外,其他9个Hub基因均在胃癌组织中高表达,差异有统计学意义(P < 0.05,图 4)。最后我们用GEPIA数据库绘制了Hub基因高表达胃癌组织和低表达胃癌组织的Kaplan-Meiter生存曲线,结果显示COL1A1、COL4A1、COL12A1高表达的胃癌组织的生存率低于低表达组织,差异具有统计学意义(P < 0.05),与患者不良预后密切相关(图 5)。COL1A1的高表达与不良预后的相关性更加显著。
![]() |
图 4 胃癌关键基因在肿瘤组织及正常组织中的表达水平 Fig.4 Expression levels of the key genes in gastric cancer and normal tissues. A: COL1A1 expression level; B: COL4A1expression level; C: COL12A1expression level. *P < 0.05 vs normal tissue. The X axis represents tissue type, T the tumor, and N the normal tissue. The Y axis represents log2(TPM +1). TPM: Number of transcripts per million reads. |
![]() |
图 5 关键基因对胃癌患者生存分析的验证结果 Fig.5 Validation of the key genes in survival analysis of the patients with gastric cancer. A: COL1A1 validation result; B: COL4A1 validation result; C: COL12A1validation result. The red line represents the high expression group, and the blue line represents the low expression group. HR: Risk ratio. |
![]() |
图 6 COL1A1 mRNA 3'UTR中miR-129-5p结合位点的预测结果 Fig.6 Prediction of miR-129-5p binding sites in COL1A1 mRNA3'UTR. |
用Target Scan数据库预测到miR-129-5p直接与COL1A1 mRNA的3'UTR结合,是COL1A1转录后调节因子(图 5)。
2.7 miR-129-5p在胃癌中的表达水平与生存预后分析经OncomiR数据库检索发现,miR-129-5p在胃癌组织中的表达显著低于正常组织(P=3.32e-05,图 7A)。为分析miR-129-5p与胃癌生存预后之间的关系,我们使用此数据库进一步分析了miR-129-5p在胃癌组织中的表达水平与生存期的关系,结果发现,低表达组生存期时间短于正常组织,但差异不具有统计学意义(P=0.1182,图 7B)。
![]() |
图 7 miR-129-5p在胃癌中的表达与其生存预后分析 Fig.7 Expression of miR-129-5p in gastric cancer and analysis of the survival outcomes of the patients. A: Expression of miR-129-5p in gastric cancer (**P < 0.05 vs normal); B: Relationship between miR-129-5p expression level and the survival outcomes. |
胃癌早期诊断具有一定难度,大多数胃癌患者确诊时已是晚期[21],已失去最佳治疗时机,死亡率一直居高不下。因此,探究新的早期肿瘤生物标志物对胃癌的防治具有一定价值。本研究采用生物信息学方法对GEO数据库中的胃腺癌组织和正常胃黏膜组织的基因芯片数据进行分析。首先比较胃癌组织和正常胃黏膜组织中的基因表达情况,共筛选出181个DEGs(胃癌组/正常对照组),其中上调基因和下调基因分别为57个和124个。为进一步了解DEGs,我们进行了GO和KEGG通路富集分析,DEGs的生物过程主要涉及细胞黏附、氧化还原过程、胶原蛋白分解代谢等,细胞学组成分析显示这些基因大多参与细胞外泌体、细胞外基质、细胞外区等的组成。分子功能的变化主要集中在锌、铁离子结合、相同的蛋白结合、细胞外基质结构组成、肝素结合、氧化还原酶活性、血红素结合、氧气结合等。正常情况下,机体的氧化还原过程处于动态平衡状态,而细胞氧化还原环境持续遭到破坏,则可能导致肿瘤的发生[22]。功能模块分析显示:KEGG通路主要涉及蛋白质消化吸收、PI3K-Akt信号通路、ECM-受体相互作用、血小板激活信号通路。这与一项胃癌关键基因的生物信息学分析的研究结果相似[23]。PI3K-Akt通路在许多肿瘤中都具有较高的易感性[24]。PI3K-Akt通路通过促进细胞增殖,在肿瘤细胞侵袭、转移中起着重要的作用[25]。
PPI网络筛选出10个Hub基因,由GEPIA验证得知COL1A1(Collagen, type Ⅰ, alpha 1)的高表达与不良预后显著相关,有研究已证实此结果[26]。最近有研究[27]提出了COL1A1可作为胃癌早期筛查的标志。Ⅰ型胶原是纤维胶原家族的主要成分,主要参与细胞外基质结构的组成,被认为是一种肿瘤相关基因[28],可能参与了肿瘤的侵袭和进展[29],有研究表明[30],COL1A1的上调有助于卵巢癌细胞对顺铂耐药。为进一步了解COL1A1参与胃癌发生发展的分子机制,我们预测了调控COL1A1的转录后调节因子miRNAs,miRNA是内源性小型非编码RNA分子,其长度为18-24个核苷酸,可通过诱导mRNA降解或通过与mRNA的3'-UTR的互补结合而抑制mRNA[31]。预测结果显示miR-129-5p可直接与COL1A1 mRNA的3'UTR结合。miR-129-5p是一种有效的肿瘤抑制因子[32-33],为验证胃癌中miR- 129-5p与COL1A1的关系,我们通过OncomiR数据库检索了miR-129-5p在胃癌中的表达与生存预后,结果显示miR-129-5p在胃癌组织中的表达显著低于正常组织(P=3.32e-05),生存期也短于正常组织。由此得出miR-129-5p调控的COL1A1是胃癌潜在的治疗靶点。这与最近的一项miR-129-5p通过抑制COL1A1来抑制胃癌细胞的侵袭和增殖[34]的研究结果一致。
综上所述,我们通过生物信息学分析确定了差异表达的基因,由富集分析和蛋白互作可知,COL1A1在胃癌中是一种高表达分子。此外,在胃癌中预测到miR- 129-5p可下调COL1A1的表达。COL1A1应该是miR- 129-5p调控胃癌治疗的靶点。为了得到更准确的相关性结果,还需要进行一系列的实验来验证预测结果。
[1] |
Chen W, Zheng R, Baade PD, et al. Cancer statistics in China, 2015[J]. CACancer J Clin, 2016, 66(2): 115-32. DOI:10.3322/caac.21338 |
[2] |
Orditura M, Galizia G, Sforza V, et al. Treatment of gastric cancer[J]. World J Gastroenterol, 2014, 20(7): 1635-49. DOI:10.3748/wjg.v20.i7.1635 |
[3] |
Malvezzi M, Bonifazi M, Bertuccio P, et al. An age-period-cohort analysis of gastric cancer mortality from 1950 to 2007 in Europe[J]. Ann Epidemiol, 2010, 20(12): 898-905. DOI:10.1016/j.annepidem.2010.08.013 |
[4] |
Torre LA, Bray F, Siegel RL, et al. Global cancer statistics, 2012[J]. CACancer J Clin, 2015, 65(2): 87-108. DOI:10.3322/caac.21262 |
[5] |
Moghbeli M, Makhdoumi Y, Soltani Delgosha M, et al. ErbB1 and ErbB3 co-over expression as a prognostic factor in gastric cancer[J]. Biol Res, 2019, 52(1): 2. DOI:10.1186/s40659-018-0208-1 |
[6] |
吴永伟, 赵刚. CEA、CA724、CA199与PGⅠ、PGⅡ、PGR联合检测在胃癌早期诊断中的价值分析[J]. 川北医学院学报, 2018, 33(6): 836-9. DOI:10.3969/j.issn.1005-3697.2018.06.008 |
[7] |
Hasholzner U, Baumgartner L, Stieber P, et al. Clinical signifcance of the tumour markers CA 125 Ⅱ and CA 72-4 in ovarian carcinoma[J]. Int J Cancer, 1996, 69(4): 329-34. DOI:10.1002/(ISSN)1097-0215 |
[8] |
Luo G, Liu C, Guo M, et al. Potential Biomarkers in Lewis Negative Patients With Pancreatic Cancer[J]. Ann Surg, 2017, 265(4): 800-05. DOI:10.1097/SLA.0000000000001741 |
[9] |
Barcus CE, O'Leary KA, Brockman JL, et al. Elevated collagen- Ⅰ augments tumor progressive signals, intravasation and metastasis of prolactin-induced estrogen receptor alpha positive mammary tumor cells[J]. Breast Cancer Res, 2017, 19(1): 9. DOI:10.1186/s13058-017-0801-1 |
[10] |
Ibanez de Caceres I, Dulaimi E, Hoffman AM, et al. Identification of novel target genes by an epigenetic reactivation screen of renal cancer[J]. Cancer Res, 2006, 66(10): 5021-8. DOI:10.1158/0008-5472.CAN-05-3365 |
[11] |
Lv J, Guo L, Wang JH, et al. Biomarker identification and transregulatory network analyses in esophageal adenocarcinoma and Barrett's esophagus[J]. World J Gastroenterol, 2019, 25(2): 233-44. DOI:10.3748/wjg.v25.i2.233 |
[12] |
Zang S, Guo R, Xing R, et al. Identification of differentiallyexpressed genes in intestinal gastric cancer by microarray analysis[J]. Genom Proteom Bioinformat, 2014, 12(6): 276-83. DOI:10.1016/j.gpb.2014.09.004 |
[13] |
Tinker AV, Boussioutas A, Bowtell DD. The challenges of gene expression microarrays for the study of human cancer[J]. Cancer Cell, 2006, 9(5): 333-9. DOI:10.1016/j.ccr.2006.05.001 |
[14] |
Davis S, Meltzer PS. GEOquery: a bridge between the Gene Expression Omnibus (GEO) and BioConductor[J]. Bioinformatics, 2007, 23(14): 1846-7. DOI:10.1093/bioinformatics/btm254 |
[15] |
Huang DW, Sherman BT, Lempicki RA. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources[J]. Nat Protoc, 2009, 4(1): 44-57. DOI:10.1038/nprot.2008.211 |
[16] |
Sherman BT, Huang DW, Tan Q, et al. DAVID Knowledgebase: a gene- centered database integrating heterogeneous gene annotation resources to facilitate high-throughput gene functional analysis[J]. BMC Bioinformatics, 2007, 8: 426. DOI:10.1186/1471-2105-8-426 |
[17] |
Jiao X, Sherman BT, Huang D W, et al. DAVID-WS: a stateful web service to facilitate gene/protein list analysis[J]. Bioinformatics, 2012, 28(13): 1805-6. DOI:10.1093/bioinformatics/bts251 |
[18] |
Szklarczyk D, Franceschini A, Wyder S, et al. STRING v10: proteinprotein interaction networks, integrated over the tree of life[J]. NucleicAcids Res, 2015, 43(Database issue): D447-52. |
[19] |
Shannon P, Markiel A, Ozier O, et al. Cytoscape: a software environment for integrated models of biomolecular interaction networks[J]. Genome Res, 2003, 13(11): 2498-504. DOI:10.1101/gr.1239303 |
[20] |
Tang Z, Li C, Kang B, et al. GEPIA: a web server for cancer and normal gene expression profiling and interactive analyses[J]. NucleicAcids Res, 2017, 45(W1): W98-102. DOI:10.1093/nar/gkx247 |
[21] |
Zong L, Abe M, Seto Y, et al. The challenge of screening for early gastric cancer in China[J]. Lancet, 2016, 388(10060): 2606. DOI:10.1016/S0140-6736(16)32226-7 |
[22] |
杨梦祺, 刘盼盼, 黄蓬. 肿瘤氧化还原代谢与干预[J]. 中国生化药物杂志, 2016, 36(9): 16-23. |
[23] |
Sun C, Yuan Q, Wu D, et al. Identification of core genes and outcome in gastric cancer using bioinformatics analysis[J]. Oncotarget, 2017, 8(41): 70271-80. |
[24] |
Brugge J, Hung MC, Mills GB. A new mutational AKTivation in the PI3K pathway[J]. Cancer Cell, 2007, 12(2): 104-7. DOI:10.1016/j.ccr.2007.07.014 |
[25] |
Hao NB, Tang B, Wang GZ, et al. Hepatocyte growth factor (HGF) upregulates heparanase expression via the PI3K/Akt/NF-kappaB signaling pathway for gastric cancer metastasis[J]. Cancer Lett, 2015, 361(1): 57-66. DOI:10.1016/j.canlet.2015.02.043 |
[26] |
Zhuo C, Li X, Zhuang H, et al. Elevated THBS2, COL1A2, and SPP1 expression levels as predictors of gastric cancer prognosis[J]. Cell Physiol Biochem, 2016, 40(6): 1316-24. DOI:10.1159/000453184 |
[27] |
Li J, Ding Y, Li A. Identification of COL1A1 and COL1A2 as candidate prognostic factors in gastric cancer[J]. World J Surg Oncol, 2016, 14(1): 297. DOI:10.1186/s12957-016-1056-5 |
[28] |
Hayashi M, Nomoto S, Hishida M, et al. Identification of the collagen type 1 α 1 gene (COL1A1) as a candidate survival-related factor associated with hepatocellular carcinoma[J]. BMC Cancer, 2014, 14(1): 108. DOI:10.1186/1471-2407-14-108 |
[29] |
Wolf K, Alexander S, Schacht V, et al. Collagen-based cell migration models in vitro and in vivo[J]. Semin Cell Dev Biol, 2009, 20(8): 931-41. DOI:10.1016/j.semcdb.2009.08.005 |
[30] |
Yu PN, Yan MD, Lai HC, et al. Downregulation of miR-29 contributes to cisplatin resistance of ovarian cancer cells[J]. Int J Cancer, 2013, 134(3): 542-51. |
[31] |
Sionov RV. MicroRNAs and glucocorticoid-induced apoptosis in lymphoid malignancies[J]. ISRN Hematol, 2013, 2013(13): 348212. |
[32] |
Han H, Li W, Shen H, et al. microRNA-129-5p, a c-Myc negative target, affects hepatocellular carcinoma progression by blocking the Warburg effect[J]. J Mol Cell Biol, 2016, 8(5): 400-10. DOI:10.1093/jmcb/mjw010 |
[33] |
王球玉, 唐珺, 周佽想, 等. miR-129在乳腺癌中表达下调及其对乳腺癌细胞迁移运动的影响[J]. 生理学报, 2012, 64(4): 403-11. |
[34] |
Wang Q, Yu J. MiR-129-5p suppresses gastric cancer cell invasion and proliferation by inhibiting COL1A1[J]. Biochem Cell Biol, 2018, 96(1): 19-25. DOI:10.1139/bcb-2016-0254 |