详细信息
肿瘤基因数据的特征选择算法研究 被引量:1
文献类型:学位论文
中文题名:肿瘤基因数据的特征选择算法研究
作者:杨耀[1];
第一作者:杨耀
机构:[1]甘肃中医药大学;
第一机构:甘肃中医药大学
导师:李四海;甘肃中医药大学
授予学位:硕士
语种:中文
中文关键词:肿瘤基因数据;特征选择;XGBoost模型;SHAP解释模型
年份:2022
摘要:随着基因微阵列技术的发展,大量的肿瘤基因数据被公布。肿瘤基因数据是一种高维小样本数据,具有成千上万个特征基因,但样本量却很少,往往只有几十或几百个。同时,得益于机器学习与数据挖掘技术在医学领域的广泛应用,肿瘤基因数据的特征选择已成为当今研究的热点。对肿瘤基因数据进行特征选择,可以筛选出与致病最相关的基因特征,这对于疾病的早期临床诊断及药物的研发均具有重要意义。因此,开展肿瘤基因数据有效的特征选择算法非常必要。在常用的特征选择算法中,mRMR是一种基于互信息的过滤式算法。基于过滤式的特征选择算法具有简单、计算复杂度低、高效、泛化能力好和适用于高维数据等特点,但忽视了特征之间可能具有的相关性。Lasso是一种基于L1正则化的嵌入式特征选择算法,具有较高的效率、较高的分类准确率和较好的泛化能力,但计算复杂度较高且不适用于高维小样本数据。因此,本文通过将mRMR和Lasso算法结合,提出一种基于L1正则化改进的mRMR算法——MM-LAS特征选择算法。在AMLALLML、COLON、GLIOMAML、PROSTATEML、SRBCTML、LUNG和CARML共7个肿瘤基因数据集上进行实验,结果表明:提出的算法在分类准确率、TP Rate、FP Rate、查准率、召回率、F1值和AUC方面均具有较好的分类性能。通过分类模型,可以评估算法的性能。其中,集成分类器结合多个弱分类器,集成为强分类器,具有更好的分类性能。XGBoost,是一种优秀的集成分类器模型。该模型的性能受参数的影响较大,通过对模型参数进行优化,能够进一步提高模型的分类性能。网格搜索和贝叶斯优化两种方法是目前最常用和高效的参数优化方法,可以有效地选出最优参数组合。因此,本文通过运用网格搜索和贝叶斯优化两种优化方法,对XGBoost模型的参数进行优化,并在肿瘤基因数据集上进行仿真实验,结果表明:XGBoost模型的分类性能得到了显著的提升。分类器的可解释性,是评价其性能的重要指标。本文通过引入SHAP值,对XGBoost这种难以被解释的黑箱模型进行解释和评价。SHAP解释模型与人类直觉一致,并在解释医疗相关模型方面日益流行。SHAP值,可以得到各特征的重要程度以及对模型预测的贡献;对模型预测具有正向,还是反向的影响;特征之间的依赖关系是积极的,还是消极的等。最重要的是,SHAP值在进行解释时,能够表现出特征对模型影响的正负性。同时,SHAP提供了强大的数据可视化功能,可以显示每一个特征对模型的预测值、对特征进行整体的可视化、提供部分依赖图以及对多个特征的交互作用进行分析等。因此,本文对参数优化后的XGBoost模型利用SHAP值在SHAP Value Plot、Variable Importance Plot、SHAP Dependence Plot和SHAP Interaction Values Plot共4个可视化方面,进行了较为深入的分析。在肿瘤基因数据集上进行仿真实验,结果表明:SHAP值可以直接可视化数据中最重要的特征,并分析特征之间以及特征对模型预测的影响关系,并找出与肿瘤致病最相关的基因特征。
参考文献:
正在载入数据...