Page 97 - 2022-24-中国全科医学
P. 97
·3038· http://www.chinagp.net E-mail:zgqkyx@chinagp.net.cn
15.74)〕、年龄 <24 岁〔OR=2.43,95%CI(1.37,4.30)〕。 肖美丽等 [29] 采用 RF 算法对 406 例孕妇按照是否发生
通过对危险因素与 PPD 的关联强度进行分析,可以及 PPD 进行决策分类,综合人口学资料、生物 - 心理 - 社
时筛选出 PPD 的高危人群,为有针对性地进行预防及 会等多个维度的影响因素,按照变量重要性评分进行排
干预奠定基础。 序,列举了排在前 10 位的重要预测变量,且该模型预
值得注意的是,构建参数化预测模型时还要考虑模 测准确率为 80.10%。
型的使用条件以及变量之间的相关性,避免出现过度拟 除 了 RF 算 法 外, 梯 度 提 升 树(gradient boosting
合的情况 [22] 。ÇANKAYA [23] 采用前瞻性队列研究设计, decision tree,GBDT)算法也是一种基于决策树的集成
收集研究对象孕晚期及产后 6~8 周的一般人口学资料及 学习方法,该算法同样由多棵决策树组成,但最终结果
孕期社会心理健康评估量表(PPHAS)评分,构建两个 为所有决策树预测结论的累积,因此通过 GBDT 算法构
时间点的 Logistic 回归模型;结果显示在妊娠期间遭受 建的模型更为复杂。为了控制模型的复杂程度,CHEN
丈夫或其他家庭成员的暴力,存在婚姻问题,产前出现 等 [30] 以 GBDT 为框架,对目标函数加入了正则化项,
抑郁、焦虑和高度感知压力的产妇患 PPD 的风险较高, 建立了极端梯度提升(XGBoost)算法。HOCHMAN 等 [31]
可以作为 PPD 的预测因素,其中妊娠期间遭受丈夫或 根据以色列最大保健组织的电子健康记录数据库,通过
其他家庭成员暴力的女性 PPD 发生率高于未受暴力影 使用 XGBoost 算法构建预测模型并评估分娩后 1 年内患
响的女性〔OR=0.056,95%CI=(0.014,0.236)〕。但 PPD 的风险,结果显示:ROC 曲线下面积(AUC)为 0.712
由于研究中使用的 PPHAS 量表总分与其他变量之间具 〔95%CI(0.690,0.733)〕,提示该模型具有中等水
有高度相关性〔r ≥ 0.800,P<0.001,方差膨胀因子 平的预测性能。应用 XGBoost 算法可以自动解释自变量
(VIF )≥ 3 000〕,即存在多重共线性,因此并未纳 之间的交互作用,同时可以通过处理每个决策树分支的
入 Logistic 回归模型。参数化模型不可解决非线性问题, 丢失数据评估不同子集的模型性能。通过 XGBoost 算法
对变量各水平上数据分布不平衡的问题也难以处理,而 构建 PPD 预测模型、分析 PPD 预测因素的重要性并进
是否存在多重共线性决定着自变量是否被纳入回归模 行排序可以将产妇按照不同的风险群体进行分层,有助
型。对于参数化回归模型变量筛选存在多重共线性的解 于进行早期 PPD 的检测和干预。
决方法之一便是应用正则化技术中的岭回归、Lasso 回 3.2.2 基于朴素贝叶斯的算法 朴素贝叶斯 [32] 发源于
归 [24] 以及弹性网络的方法。 古典数学理论,是一种稳定、结构简单且十分高效的分
3.2 PPD 的非参数化模型 近年来非参数化机器学习 类算法,其原理基于条件独立性假设,即所有预测变量
算法成为医疗预测领域研究的热门方法。临床医学研究 之间相互独立,当面对高维度、多分类的数据集时,朴
数据具有量大、混杂及随机性的特点,利用传统的统计 素贝叶斯可快速对数据集进行分类。JIMÉNEZ-SERRANO
方法预测疾病的发生过程常存在一定的局限性,非参数 等 [33] 使用西班牙 7 所综合医院 1 397 例孕妇的产前资
化机器学习算法可以根据数据类型全自动或半自动地寻 料作为数据集,选取其中 11 个变量构建模型并用于预
找数据中的目标内容,挖掘有用知识,反复多次总结规 测分娩后第 1 周是否发生 PPD,结果在训练集中朴素贝
律,帮助研究者做出决策或预测。这种通过大数据挖掘 叶斯模型实现了灵敏度、特异度和准确性之间的良好平
对疾病进行预测的方法符合循证医学和精准医疗的要 衡,AUC 为 0.75,呈现了最佳预测性能。朴素贝叶斯
求。目前应用非参数化机器学习算法建立 PPD 预测模 算法简单,能够处理多分类任务,执行速度快且易于解
型的方法包括基于决策树的算法、基于朴素贝叶斯的算 释,但朴素贝叶斯算法在变量分布不平衡时分类效果较
法、基于支持向量机的算法和基于人工神经网络的算法。 差,因此使用朴素贝叶斯算法前需要考虑变量分布的平
3.2.1 基于决策树的算法 决策树 [25] 是一种简单但广 衡性以避免预测效果不佳问题 [34] 。
泛使用的分类器,因类似于流程图的树结构、可以模仿 3.2.3 基于 SVM 的算法 SVM 具有强大的学习功能 [35] ,
人类做出决策的过程而命名。构建决策树可以对新的数 是机器学习中最常用的一种线性与非线性分类方法,其
据进行分类。随机森林(random forest,RF) [26] 是专 基本原理是利用适当的核函数找到一个超平面,对数据
门为决策树分类器设计而成的集成学习方法,包含多个 类别进行分隔,使训练集的点与超平面之间存在最大
决策树,每棵“树”的分布相同,其预测结果综合了多 可能的距离,以达到数据分类的目的。ZHANG 等 [36]
个决策树的分类结果,因此最终结果会更加可靠 [27] 。 通过收集 508 例孕妇孕期的信息,分别采取两种特征
同时 RF 也能较好地处理数据的缺省值问题,具有较高 选择方法:专家函询和 Filter 过滤法,开发了基于 SVM
的分类精度 [28] ,因此 RF 算法更受到研究者的青睐。 的 PPD 预测模型;结果显示该预测模型筛选出的最重