Page 100 - 中国全科医学2022-01
P. 100

http://www.chinagp.net   E-mail:zgqkyx@chinagp.net.cn  ·225·


                                                               本研究不同的特征筛选方法对模型性能存在影响。其中,
                                                               不筛选是为了纳入缺失值处理后的所有变量,了解模型
                                                               预测效果。然而,若只选择部分特征构建模型,可以大
                                                               大减少学习算法的运行时间,也可以增加模型的可解释
                                                               性。Boruta 筛选是选择出所有与因变量具有相关性的特
                                                               征集合,可以更全面的理解因变量的影响因素。Lasso
                                                               筛选相比于普通最小二乘估计,可在众多变量时快速有
                                                               效地提取出重要变量来简化模型。本研究假设检验单因
                                                               素分析中,Lasso 筛选在模型中表现较好,平均 AUC 为
                                                               (0.719±0.094),但在 5 个最佳模型里 Lasso 筛选并
                                                               未表现出较好的预测性能。集成学习、不填充、Boruta
                                                               筛选模型优于集成学习、不填充、Lasso 筛选模型。
                                                                   本研究创新性之处:(1)国内尚未发现较成熟的
              图 6 COPD 患者气流受限程度风险预警模型的样本量验证                    COPD 患者重度气流受限风险预警模型,本研究所建立
           Figure 6 Sample size validation diagram of the risk prediction model for   的机器学习模型为 COPD 患者疾病评估提供辅助决策依
           the degree of airflow limitation in COPD patients
                                                               据。(2)迄今为止,许多关于机器学习方面的研究常
                                                               使用某一种或几种机器学习算法建立模型,并很少采用
                                                     [17]
           患者吸烟影响肺微生态群,降低了肺部防御能力                         。     不同的数据预处理方式进行多样化建模来比较模型预测
           肺功能与 BMI 有关,与部分学者研究吻合                    [18-19] 。  性能。然而,本研究通过不同的数据清洗方法,采用多
           GRIGSBY 等 [20] 研究表明,在发展中国家,BMI 越低,
                                                               达 216 种算法,经十折交叉验证,建立了 2 160 个模型。
           肺功能越差。然而,有学者指出 FEV 1 与 BMI 无关,仅                     同时,本研究采用了先进的 Bootstrapping 算法通过重抽
           与身高呈正相关       [10,14] 。研究结果差异可能因纳入人群
                                                               样将小样本数据转化成大样本数据,提高模型预测精度,
           的社会人口学特征不同所致。肺功能还与 mMRC 等级                          保证模型的可靠度。(3)本研究评价了每一个预测变
           和 CAT 评分存在显著关系         [5,21-22] 。基于患者肺功能的
                                                               量对每一种模型性能的影响,与其他机器模型相比更加
           预测转向为疾病恶化风险和症状的评估,该评估可用于
                                                               全面、更具说服力。(4)基于样本量验证的方法,探
           完善 COPD 气流受限程度分级。
                                                               究样本量与 AUC 之间的关系,为预测研究的样本分析
               真实世界研究中,数据缺失已成为常见且难以避免
                                                               提供了参考。
           的严重问题。在数据分析中,若因小部分的数据缺失而
                                                                   本研究局限性:(1)本研究在预测因子方面,未
           删除该患者整个信息,将会损失大部分信息;若因过多
                                                               纳入实验室和 CT 检查数据,其相关性还有待进一步深
           的信息丢失加入特征,可能反倒增加噪声,影响最后结                            入探究。(2)本研究为单中心研究,研究对象仅限于
           果。本研究通过初步筛选删除数据缺失占比大于 90%                           COPD 住院患者,存在一定选择偏倚,后续需进一步开
           的变量后进行填充。而对于剩余数据是否需要填充,以                            展多中心、大样本验证。
           及怎样有效填充,直至今日,也尚未达成共识。最常用                            4 结论
           的填充方法莫过于用均值、中位数或频率最高的数据进                                综上所述,集成学习模型对 COPD 患者重度气流
           行插补,但是精确度也较低。STEKHOVEN 等                [23] 建立     受限风险的预警效果良好,mMRC 等级、年龄、BMI、
           了随机森林的迭代插补方法,并取得了很好的填充效果。                           CAT 评分、是否有吸烟史和呼吸困难是影响气流受限的
           随机森林能有效处理混合类型数据填充,比单一类型填                            关键因素。无法进行肺功能测试者,借助重度气流受限
           充方法更具有优势。但本研究结果显示,不同的填充方                            风险预警模型可有助于医生评估患者的肺功能,在有效
           法对模型性能影响具有统计学差异(P<0.05)。在不填                         降低 COPD 患者未来风险和负担方面发挥巨大潜能。
           充数据时,得到的预警模型效果更佳,导致此结果的原                                作者贡献:周丽娟进行文章的构思与设计,撰写论
           因为:本研究中不填充方法与既往研究中不填充方法不                            文;吕琴、蒋蓉进行研究的实施与可行性分析;周丽娟、
           同,这是一种最大限度地保留原始数据集进行分析的方                            吕琴、向超进行数据收集;周丽娟、吴行伟、周黄源进
           法,所以得到的效果最佳。                                        行数据整理、统计学处理;周丽娟、温贤秀、蒋蓉、周
               本研究变量的特征筛选采用了不筛选、Lasso 筛选、                      黄源进行论文的修订;温贤秀负责文章的质量控制及审
           Boruta 筛选。不同的筛选方法可减少特征数量、降维,                        校,对文章整体负责,监督管理。
           降低学习的难度,提升模型的效率,增强模型泛化能力。                               本文无利益冲突。
   95   96   97   98   99   100   101   102   103   104   105