Page 98 - 2022-24-中国全科医学
P. 98
http://www.chinagp.net E-mail:zgqkyx@chinagp.net.cn ·3039·
要的 3 个预测因素是心理适应能力、孕晚期抑郁和月收 和堆叠组合模型(stacked ensembles models),并评估
入水平。两种特征选择方法在模型预测性能的有效性方 了不同机器学习算法预测模型的性能。所选机器学习算
面没有明显差异,但采用 Filter 过滤法进行特征选择的 法的分类性能在准确性、阴性预测值、AUC 方面没有
SVM 模型预测效果更好(灵敏度 =0.69,特异度 =0.83, 明显差异。然而,在灵敏度、特异度和阳性预测值方面
AUC=0.78)。除了特征选择方法外,样本量的大小也 差异较为明显。XRT 提供了高精度、均衡的灵敏度和特
影响着 PPD 预测模型的性能,而由于 SVM 是一种基于 异度的预测性能(准确性:73%,灵敏度:72%,特异度:
结构风险最小化准则的算法,因此当样本量较小时,采 75%,阳性预测值:33%,阴性预测值:94%,AUC:
用 SVM 算法可以避免过度拟合。除此之外,使用 SVM 81%)。通过 XRT 筛选出相对贡献高于 0.9 的主要影响
算法构建预测模型具有较好的泛化能力 [37] 。 因素为妊娠期间的抑郁和焦虑。采用不同机器学习算法
3.2.4 基于人工神经网络 人工神经网络(artificial 构建预测模型的选择是个复杂过程,应使用统计软件并
neural network,ANN)是从信息处理角度理解和抽象 通过性能指标判断预测模型的预测准确度,同时也需要
了人脑的神经元网络 [38] ,可建立简单模型并按不同 结合医疗专业知识和临床实际情况进行判断,考虑模型
的连接方式组成不同的网络。多层感知器(multilayer 实施的多方面因素。
perceptron,MLP)是一种前馈人工神经网络模型 [39] , 4.2 PPD 参数化和非参数化预测模型的比较 应用参
其在单层神经网络的基础上引入了一到多个隐藏层, 数化和非参数化机器学习算法构建 PPD 预测模型均能
采 取 标 准 反 向 传 播 算 法(backpropagation algorithm, 够有效预测产妇 PPD 发生风险,并且大部分预测模型
BP) [40] 训练多层感知器,使多层神经元协同工作,并 的准确度较高,有利于医护人员及时进行医疗决策。传
从数据集中进行学习。FATIMA 等 [41] 提出了一种通过 统的参数化模型包括线性回归和逻辑回归,可通过描述
社交媒体平台上用户的文本信息预测 PPD 的新方法, 结局指标与一个或多个解释性变量之间的关系对预测结
使用“语言探索与字词计数”(linguistic inquiry and 果进行分析 [44] 。参数化模型形式简单、易于理解,具
word count,LIWC)软件提取社交媒体上生成的语言特 有较好的解释性,通过预测因素的权重可以看到不同预
征,利用 MLP 算法并基于语言特征对一般性讨论、PPD 测因素对 PPD 的影响程度。PPD 参数化预测模型以概
和非 PPD 内容进行分类及 PPD 人群预测,结果显示, 率的形式输出结果,可以对不同类型的孕产妇进行风险
MLP 预测模型的准确性为 80.36%,精准性为 75.11%。 分层,有针对性地进行辅助决策,因此更适用于医护人
MLP 能够基于输入特征集导出高级特征,并且已经发现 员临床应用,但使用参数化模型需要考虑数据的分布及
该算法更适用于从海量、复杂的数据中筛选出有价值的 共线性问题。
信息 [39] 。 由于妊娠期至产后时间跨度较长、PPD 的影响因素
4 PPD 预测模型的比较 众多、数据结构复杂,因此利用传统的参数化建模方法
4.1 基于机器学习算法的 PPD 预测模型的比较 预测 PPD 的发生可能存在很大的局限性。此时,面对
SHIN 等 [42] 通过选取美国疾病控制和预防中心 PRAMS 变量的复杂情况,非参数化预测模型更具优势。非参数
2012—2013 年的 28 755 例孕产妇的孕期数据,采用 机器学习算法众多,基于决策树的算法是一种分类精度
9 种不同的机器学习算法构建 PPD 预测模型,包括 高、表现形式相对简单的算法 [45] ,而且可以用图形展示,
RF、随机梯度提升(gradient boosting model,GBM)、 增加了临床适用性,但无法给出明确的公式,且由于对
SVM、递归分隔与回归树(RPART)、朴素贝叶斯、k-NN、 数据的变化非常敏感,导致稳定性相对于参数化模型较
自适应提升算法(adaptive boosting,AdaBoost 算法)、 差。另一种广泛应用的非参数分类模型是朴素贝叶斯模
Logistic 回归和 ANN,并采用了 10 倍交叉验证进行评估; 型,其算法比较简单,执行速度更快,但是需要计算先
结果显示:9 种预测模型 AUC 均大于 0.5,展现出良好 验概率,如果变量之间存在关联则其预测效果较差。若
的预测效果,其中 RF 算法 AUC 较高,为 0.884(灵敏 数据存在非线性问题,可采用 SVM 算法,其算法相对
度 =0.732,特异度 =0.865),其次是 SVM,AUC 为 0.864 复杂,数据量大时训练时间较长,因此 SVM 更适合对
(灵敏度 =0.791,特异度 =0.788)。ANDERSSON 等 [43] 小样本量数据提供高效的计算,并避免了过度拟合,从
基于瑞典一项群体队列研究中 4 277 例妇女的数据(包 而产生更好的预测结果 [46] 。相对于 Logistic 回归、决
括人口学数据、临床及心理测量数据),通过机器学习 策树等算法,ANN 是一种复杂的非参数化算法,通常
算法建立 PPD 预测模型,模型包括:岭回归、Lasso 回归、 需要大量的参数,种类繁多且不易于解释,难以得出医
GBM、分布式 RF、极端随机树(XRT)、朴素贝叶斯 学结论来支持临床决策,但 ANN 对于大样本临床资料