南方医科大学学报 ›› 2021, Vol. 41 ›› Issue (8): 1234-1242.doi: 10.12122/j.issn.1673-4254.2021.08.16
曾彭归航,唐秀晓,吴庭芩,田 奇,李茫茫,丁俊军
ZENG Pengguihang, TANG Xiuxiao, WU Tingqin, TIAN Qi, LI Mangmang, DING Junjun
摘要: 目的 基于机器学习的方法整合多组学数据在小鼠胚胎干细胞(mESCs)中鉴定潜在的与干细胞自我更新及多能性相关的基因。方法 收集了mESCs的多组学数据,包括转录组、组蛋白修饰、染色质可及性、转录因子及结构蛋白在染色质上的结合等信息,比较了已知的干细胞自我更新及多能性基因与其他基因的信号差异。整合这些多组学数据,基于包含随机森林在内的多种机器学习分类器构建预测模型并进行了5折的交叉验证。输入的样本中2/3作为训练集用于训练模型,剩余的1/3作为测试集用于独立测试来衡量模型的表现。最终通过基因功能注释和细胞活力测定、克隆形成测定及细胞周期分析等细胞功能实验对模型预测的结果进行了验证。结果 已知的多能性与自我更新基因在多组学数据中有显著区别于随机基因的特征。使用这些数据的算法中随机森林构建的模型具有最好的表现,交叉验证的曲线下面积(AUC)为0.883±0.018,独立测试的AUC为 0.880±0.028。该模型鉴定出了893个潜在的自我更新与多能性相关基因,这些基因在基因功能注释上与已知基因类似,而敲低其中新发现的基因Cct6a会导致mESCs的细胞活性显著降低(P<0.0001),形成细胞克隆的数目显著减少(P<0.01),处于G1期的细胞数量显著增加(P<0.01)而处于S期的细胞数量显著减少(P<0.05)。另外,敲低Cct6a基因的mESCs无法被碱性磷酸酶染色。结论 基于多组学数据构建的机器学习模型可以预测潜在的自我更新与多能性相关调控因子且具有较好的效果。通过构建的模型发现了潜在的自我更新与多能性调控基因如Cct6a并进行了实验验证。