Page 98 - 2022-24-中国全科医学

P. 98

http://www.chinagp.net E-mail:zgqkyx@chinagp.net.cn ·3039·

要的 3 个预测因素是心理适应能力、孕晚期抑郁和月收和堆叠组合模型（stacked ensembles models），并评估
入水平。两种特征选择方法在模型预测性能的有效性方了不同机器学习算法预测模型的性能。所选机器学习算
面没有明显差异，但采用 Filter 过滤法进行特征选择的法的分类性能在准确性、阴性预测值、AUC 方面没有
SVM 模型预测效果更好（灵敏度 =0.69，特异度 =0.83，明显差异。然而，在灵敏度、特异度和阳性预测值方面
AUC=0.78）。除了特征选择方法外，样本量的大小也差异较为明显。XRT 提供了高精度、均衡的灵敏度和特
影响着 PPD 预测模型的性能，而由于 SVM 是一种基于异度的预测性能（准确性：73%，灵敏度：72%，特异度：
结构风险最小化准则的算法，因此当样本量较小时，采 75%，阳性预测值：33%，阴性预测值：94%，AUC：
用 SVM 算法可以避免过度拟合。除此之外，使用 SVM 81%）。通过 XRT 筛选出相对贡献高于 0.9 的主要影响
算法构建预测模型具有较好的泛化能力［37］。因素为妊娠期间的抑郁和焦虑。采用不同机器学习算法
3.2.4 基于人工神经网络人工神经网络（artificial 构建预测模型的选择是个复杂过程，应使用统计软件并
neural network，ANN）是从信息处理角度理解和抽象通过性能指标判断预测模型的预测准确度，同时也需要
了人脑的神经元网络［38］，可建立简单模型并按不同结合医疗专业知识和临床实际情况进行判断，考虑模型
的连接方式组成不同的网络。多层感知器（multilayer 实施的多方面因素。
perceptron，MLP）是一种前馈人工神经网络模型［39］， 4.2 PPD 参数化和非参数化预测模型的比较应用参
其在单层神经网络的基础上引入了一到多个隐藏层，数化和非参数化机器学习算法构建 PPD 预测模型均能
采取标准反向传播算法（backpropagation algorithm，够有效预测产妇 PPD 发生风险，并且大部分预测模型
BP）［40］训练多层感知器，使多层神经元协同工作，并的准确度较高，有利于医护人员及时进行医疗决策。传
从数据集中进行学习。FATIMA 等［41］提出了一种通过统的参数化模型包括线性回归和逻辑回归，可通过描述
社交媒体平台上用户的文本信息预测 PPD 的新方法，结局指标与一个或多个解释性变量之间的关系对预测结
使用“语言探索与字词计数”（linguistic inquiry and 果进行分析［44］。参数化模型形式简单、易于理解，具
word count，LIWC）软件提取社交媒体上生成的语言特有较好的解释性，通过预测因素的权重可以看到不同预
征，利用 MLP 算法并基于语言特征对一般性讨论、PPD 测因素对 PPD 的影响程度。PPD 参数化预测模型以概
和非 PPD 内容进行分类及 PPD 人群预测，结果显示，率的形式输出结果，可以对不同类型的孕产妇进行风险
MLP 预测模型的准确性为 80.36%，精准性为 75.11%。分层，有针对性地进行辅助决策，因此更适用于医护人
MLP 能够基于输入特征集导出高级特征，并且已经发现员临床应用，但使用参数化模型需要考虑数据的分布及
该算法更适用于从海量、复杂的数据中筛选出有价值的共线性问题。
信息［39］。由于妊娠期至产后时间跨度较长、PPD 的影响因素
4 PPD 预测模型的比较众多、数据结构复杂，因此利用传统的参数化建模方法
4.1 基于机器学习算法的 PPD 预测模型的比较预测 PPD 的发生可能存在很大的局限性。此时，面对
SHIN 等［42］通过选取美国疾病控制和预防中心 PRAMS 变量的复杂情况，非参数化预测模型更具优势。非参数
2012—2013 年的 28 755 例孕产妇的孕期数据，采用机器学习算法众多，基于决策树的算法是一种分类精度
9 种不同的机器学习算法构建 PPD 预测模型，包括高、表现形式相对简单的算法［45］，而且可以用图形展示，
RF、随机梯度提升（gradient boosting model，GBM）、增加了临床适用性，但无法给出明确的公式，且由于对
SVM、递归分隔与回归树（RPART）、朴素贝叶斯、k-NN、数据的变化非常敏感，导致稳定性相对于参数化模型较
自适应提升算法（adaptive boosting，AdaBoost 算法）、差。另一种广泛应用的非参数分类模型是朴素贝叶斯模
Logistic 回归和 ANN，并采用了 10 倍交叉验证进行评估；型，其算法比较简单，执行速度更快，但是需要计算先
结果显示：9 种预测模型 AUC 均大于 0.5，展现出良好验概率，如果变量之间存在关联则其预测效果较差。若
的预测效果，其中 RF 算法 AUC 较高，为 0.884（灵敏数据存在非线性问题，可采用 SVM 算法，其算法相对
度 =0.732，特异度 =0.865），其次是 SVM，AUC 为 0.864 复杂，数据量大时训练时间较长，因此 SVM 更适合对
（灵敏度 =0.791，特异度 =0.788）。ANDERSSON 等［43］小样本量数据提供高效的计算，并避免了过度拟合，从
基于瑞典一项群体队列研究中 4 277 例妇女的数据（包而产生更好的预测结果［46］。相对于 Logistic 回归、决
括人口学数据、临床及心理测量数据），通过机器学习策树等算法，ANN 是一种复杂的非参数化算法，通常
算法建立 PPD 预测模型，模型包括：岭回归、Lasso 回归、需要大量的参数，种类繁多且不易于解释，难以得出医
GBM、分布式 RF、极端随机树（XRT）、朴素贝叶斯学结论来支持临床决策，但 ANN 对于大样本临床资料

93 94 95 96 97 98 99 100 101 102 103