Page 100 - 中国全科医学2022-01

P. 100

http://www.chinagp.net E-mail:zgqkyx@chinagp.net.cn ·225·

本研究不同的特征筛选方法对模型性能存在影响。其中，
不筛选是为了纳入缺失值处理后的所有变量，了解模型
预测效果。然而，若只选择部分特征构建模型，可以大
大减少学习算法的运行时间，也可以增加模型的可解释
性。Boruta 筛选是选择出所有与因变量具有相关性的特
征集合，可以更全面的理解因变量的影响因素。Lasso
筛选相比于普通最小二乘估计，可在众多变量时快速有
效地提取出重要变量来简化模型。本研究假设检验单因
素分析中，Lasso 筛选在模型中表现较好，平均 AUC 为
（0.719±0.094），但在 5 个最佳模型里 Lasso 筛选并
未表现出较好的预测性能。集成学习、不填充、Boruta
筛选模型优于集成学习、不填充、Lasso 筛选模型。
本研究创新性之处：（1）国内尚未发现较成熟的
图 6 COPD 患者气流受限程度风险预警模型的样本量验证 COPD 患者重度气流受限风险预警模型，本研究所建立
Figure 6 Sample size validation diagram of the risk prediction model for 的机器学习模型为 COPD 患者疾病评估提供辅助决策依
the degree of airflow limitation in COPD patients
据。（2）迄今为止，许多关于机器学习方面的研究常
使用某一种或几种机器学习算法建立模型，并很少采用
［17］
患者吸烟影响肺微生态群，降低了肺部防御能力。不同的数据预处理方式进行多样化建模来比较模型预测
肺功能与 BMI 有关，与部分学者研究吻合［18-19］。性能。然而，本研究通过不同的数据清洗方法，采用多
GRIGSBY 等［20］研究表明，在发展中国家，BMI 越低，
达 216 种算法，经十折交叉验证，建立了 2 160 个模型。
肺功能越差。然而，有学者指出 FEV 1 与 BMI 无关，仅同时，本研究采用了先进的 Bootstrapping 算法通过重抽
与身高呈正相关［10，14］。研究结果差异可能因纳入人群
样将小样本数据转化成大样本数据，提高模型预测精度，
的社会人口学特征不同所致。肺功能还与 mMRC 等级保证模型的可靠度。（3）本研究评价了每一个预测变
和 CAT 评分存在显著关系［5，21-22］。基于患者肺功能的
量对每一种模型性能的影响，与其他机器模型相比更加
预测转向为疾病恶化风险和症状的评估，该评估可用于
全面、更具说服力。（4）基于样本量验证的方法，探
完善 COPD 气流受限程度分级。
究样本量与 AUC 之间的关系，为预测研究的样本分析
真实世界研究中，数据缺失已成为常见且难以避免
提供了参考。
的严重问题。在数据分析中，若因小部分的数据缺失而
本研究局限性：（1）本研究在预测因子方面，未
删除该患者整个信息，将会损失大部分信息；若因过多
纳入实验室和 CT 检查数据，其相关性还有待进一步深
的信息丢失加入特征，可能反倒增加噪声，影响最后结入探究。（2）本研究为单中心研究，研究对象仅限于
果。本研究通过初步筛选删除数据缺失占比大于 90% COPD 住院患者，存在一定选择偏倚，后续需进一步开
的变量后进行填充。而对于剩余数据是否需要填充，以展多中心、大样本验证。
及怎样有效填充，直至今日，也尚未达成共识。最常用 4 结论
的填充方法莫过于用均值、中位数或频率最高的数据进综上所述，集成学习模型对 COPD 患者重度气流
行插补，但是精确度也较低。STEKHOVEN 等［23］建立受限风险的预警效果良好，mMRC 等级、年龄、BMI、
了随机森林的迭代插补方法，并取得了很好的填充效果。 CAT 评分、是否有吸烟史和呼吸困难是影响气流受限的
随机森林能有效处理混合类型数据填充，比单一类型填关键因素。无法进行肺功能测试者，借助重度气流受限
充方法更具有优势。但本研究结果显示，不同的填充方风险预警模型可有助于医生评估患者的肺功能，在有效
法对模型性能影响具有统计学差异（P<0.05）。在不填降低 COPD 患者未来风险和负担方面发挥巨大潜能。
充数据时，得到的预警模型效果更佳，导致此结果的原作者贡献：周丽娟进行文章的构思与设计，撰写论
因为：本研究中不填充方法与既往研究中不填充方法不文；吕琴、蒋蓉进行研究的实施与可行性分析；周丽娟、
同，这是一种最大限度地保留原始数据集进行分析的方吕琴、向超进行数据收集；周丽娟、吴行伟、周黄源进
法，所以得到的效果最佳。行数据整理、统计学处理；周丽娟、温贤秀、蒋蓉、周
本研究变量的特征筛选采用了不筛选、Lasso 筛选、黄源进行论文的修订；温贤秀负责文章的质量控制及审
Boruta 筛选。不同的筛选方法可减少特征数量、降维，校，对文章整体负责，监督管理。
降低学习的难度，提升模型的效率，增强模型泛化能力。本文无利益冲突。

95 96 97 98 99 100 101 102 103 104 105