基于集成学习的N6甲基化位点预测方法研究

本文刊于: 《计算机技术与发展》 2021年第0期

关键词:
6mA甲基化 stacking集成学习 XGBoost LightGBM 支持向

Keywords:
N6-methyladenine(6mA),stacking ensemble learning,extreme gradient boosting(XGBoost),LightGBM,support vector machine
摘要
     N6-甲基腺嘌呤(N6-methyladenine, 6mA)是指腺嘌呤第6位氮原子的甲基化修饰。6mA在维持细胞正常的转录活性、DNA损伤修复、染色质重塑、遗传印记、胚胎发育和肿瘤发生等生物过程中起着非常重要的作用。通过生物实验的方法来鉴定6mA位点耗时且昂贵。近年来,研究界提出了一些基于机器学习的6mA位点预测方法,但这些预测方法过度依赖一种学习模型,导致模型的泛化能力不足以及预测的准确度不高等问题。集成学习综合多种预测模型的优点,具有较好的泛化能力及预测性能。因此,为了进一步提升6mA位点的预测准确性,提出了一种基于stacking集成学习的6mA位点预测模型Stack6mAPred。该模型由两层分类器组成,第一层集成了朴素贝叶斯、支持向量机(support vector machine, SVM)和LightGBM等三种主流分类器,第二层使用逻辑回归(logistic regression, LR)分类器。Stack6mAPred利用增强核苷酸组成等5种特征对实验已鉴定6mA序列和非6mA序列进行编码,使用XGBoost (extreme gradient boosting)算法进行特征选择,去除冗余特征。通过在水稻基准数据集上进行五折交叉验证,与目前性能最优的方法MM-6mAPred相比,Stack6mAPred在敏感性、特异性、准确度、MCC和AUC上均获得了更好的性能,分别提高了1.7%、1.36%、1.72%、0.06和0.031。

基金项目:
国家自然科学基金面上项目(61972322);教育部人文社科交叉项目(18YJCZH190);基本科研业务费前沿与交叉科学研究项目(2452019180);中央高校基本科研业务费(2452017342);博士科研启动经费(2452017019)

上一篇:厦门湾中华白海豚:面临的威胁与保护对策
下一篇:以9-蒽醛为荧光基团的吡唑啉衍生物荧光探针对Fe3+和Cu2+的检测

分享到: 分享基于集成学习的N6甲基化位点预测方法研究到腾讯微博           收藏
评论排行
公告 
相关期刊文献推荐
相关会议文献推荐
相关硕士文献推荐
相关博士文献推荐