Page 97 - 2022-24-中国全科医学
P. 97

·3038· http://www.chinagp.net   E-mail:zgqkyx@chinagp.net.cn


           15.74)〕、年龄 <24 岁〔OR=2.43,95%CI(1.37,4.30)〕。         肖美丽等    [29] 采用 RF 算法对 406 例孕妇按照是否发生
           通过对危险因素与 PPD 的关联强度进行分析,可以及                          PPD 进行决策分类,综合人口学资料、生物 - 心理 - 社
           时筛选出 PPD 的高危人群,为有针对性地进行预防及                          会等多个维度的影响因素,按照变量重要性评分进行排
           干预奠定基础。                                             序,列举了排在前 10 位的重要预测变量,且该模型预
               值得注意的是,构建参数化预测模型时还要考虑模                          测准确率为 80.10%。
           型的使用条件以及变量之间的相关性,避免出现过度拟                                除 了 RF 算 法 外, 梯 度 提 升 树(gradient boosting
           合的情况    [22] 。ÇANKAYA [23] 采用前瞻性队列研究设计,             decision tree,GBDT)算法也是一种基于决策树的集成
           收集研究对象孕晚期及产后 6~8 周的一般人口学资料及                         学习方法,该算法同样由多棵决策树组成,但最终结果
           孕期社会心理健康评估量表(PPHAS)评分,构建两个                          为所有决策树预测结论的累积,因此通过 GBDT 算法构
           时间点的 Logistic 回归模型;结果显示在妊娠期间遭受                      建的模型更为复杂。为了控制模型的复杂程度,CHEN
           丈夫或其他家庭成员的暴力,存在婚姻问题,产前出现                            等 [30] 以 GBDT 为框架,对目标函数加入了正则化项,
           抑郁、焦虑和高度感知压力的产妇患 PPD 的风险较高,                         建立了极端梯度提升(XGBoost)算法。HOCHMAN 等               [31]
           可以作为 PPD 的预测因素,其中妊娠期间遭受丈夫或                          根据以色列最大保健组织的电子健康记录数据库,通过
           其他家庭成员暴力的女性 PPD 发生率高于未受暴力影                          使用 XGBoost 算法构建预测模型并评估分娩后 1 年内患
           响的女性〔OR=0.056,95%CI=(0.014,0.236)〕。但                PPD 的风险,结果显示:ROC 曲线下面积(AUC)为 0.712
           由于研究中使用的 PPHAS 量表总分与其他变量之间具                         〔95%CI(0.690,0.733)〕,提示该模型具有中等水
           有高度相关性〔r ≥ 0.800,P<0.001,方差膨胀因子                     平的预测性能。应用 XGBoost 算法可以自动解释自变量
           (VIF )≥ 3 000〕,即存在多重共线性,因此并未纳                       之间的交互作用,同时可以通过处理每个决策树分支的
           入 Logistic 回归模型。参数化模型不可解决非线性问题,                     丢失数据评估不同子集的模型性能。通过 XGBoost 算法
           对变量各水平上数据分布不平衡的问题也难以处理,而                            构建 PPD 预测模型、分析 PPD 预测因素的重要性并进
           是否存在多重共线性决定着自变量是否被纳入回归模                             行排序可以将产妇按照不同的风险群体进行分层,有助
           型。对于参数化回归模型变量筛选存在多重共线性的解                            于进行早期 PPD 的检测和干预。
           决方法之一便是应用正则化技术中的岭回归、Lasso 回                         3.2.2 基于朴素贝叶斯的算法 朴素贝叶斯                [32] 发源于
           归 [24] 以及弹性网络的方法。                                   古典数学理论,是一种稳定、结构简单且十分高效的分
           3.2 PPD 的非参数化模型 近年来非参数化机器学习                         类算法,其原理基于条件独立性假设,即所有预测变量
           算法成为医疗预测领域研究的热门方法。临床医学研究                            之间相互独立,当面对高维度、多分类的数据集时,朴
           数据具有量大、混杂及随机性的特点,利用传统的统计                            素贝叶斯可快速对数据集进行分类。JIMÉNEZ-SERRANO
           方法预测疾病的发生过程常存在一定的局限性,非参数                            等 [33] 使用西班牙 7 所综合医院 1 397 例孕妇的产前资
           化机器学习算法可以根据数据类型全自动或半自动地寻                            料作为数据集,选取其中 11 个变量构建模型并用于预
           找数据中的目标内容,挖掘有用知识,反复多次总结规                            测分娩后第 1 周是否发生 PPD,结果在训练集中朴素贝
           律,帮助研究者做出决策或预测。这种通过大数据挖掘                            叶斯模型实现了灵敏度、特异度和准确性之间的良好平
           对疾病进行预测的方法符合循证医学和精准医疗的要                             衡,AUC 为 0.75,呈现了最佳预测性能。朴素贝叶斯
           求。目前应用非参数化机器学习算法建立 PPD 预测模                          算法简单,能够处理多分类任务,执行速度快且易于解
           型的方法包括基于决策树的算法、基于朴素贝叶斯的算                            释,但朴素贝叶斯算法在变量分布不平衡时分类效果较
           法、基于支持向量机的算法和基于人工神经网络的算法。                           差,因此使用朴素贝叶斯算法前需要考虑变量分布的平
           3.2.1 基于决策树的算法 决策树            [25] 是一种简单但广          衡性以避免预测效果不佳问题             [34] 。
           泛使用的分类器,因类似于流程图的树结构、可以模仿                            3.2.3 基于 SVM 的算法 SVM 具有强大的学习功能              [35] ,
           人类做出决策的过程而命名。构建决策树可以对新的数                            是机器学习中最常用的一种线性与非线性分类方法,其
           据进行分类。随机森林(random forest,RF)            [26] 是专     基本原理是利用适当的核函数找到一个超平面,对数据
           门为决策树分类器设计而成的集成学习方法,包含多个                            类别进行分隔,使训练集的点与超平面之间存在最大
           决策树,每棵“树”的分布相同,其预测结果综合了多                            可能的距离,以达到数据分类的目的。ZHANG 等                    [36]
           个决策树的分类结果,因此最终结果会更加可靠                     [27] 。    通过收集 508 例孕妇孕期的信息,分别采取两种特征
           同时 RF 也能较好地处理数据的缺省值问题,具有较高                          选择方法:专家函询和 Filter 过滤法,开发了基于 SVM
           的分类精度     [28] ,因此 RF 算法更受到研究者的青睐。                  的 PPD 预测模型;结果显示该预测模型筛选出的最重
   92   93   94   95   96   97   98   99   100   101   102