Page 97 - 中国全科医学2022-01
P. 97

·222· http://www.chinagp.net   E-mail:zgqkyx@chinagp.net.cn


                         表 2 总数据集变量剔除表
                     Table 2 Total data set variable elimination
                               初筛剔                   初筛剔
                  变量名                     变量名
                               除原因                   除原因
               吸氧(有、无)          ②        营养状况          ③
                每日吸氧时间          ②       血氧饱和度值         ③
                 吸氧流量           ②   无创通气使用(有、无)        ②
                 吸氧方式           ②     每天无创通气时间         ③
                无创通气方式          ②    佩戴面罩(有、无)         ②
            是否知晓无创呼吸机湿化         ②   使用经皮血氧饱和度监         ②
            罐和呼吸机管道如何消毒                测仪(有、无)
              注:①每列数据缺失占比 >90% 的变量;②每列单个类别比例
           >90% 的变量;③每列变异系数 <0.05 的变量





















                                                                        图 3 不填充、Boruta 筛选方法特征重要性
                                                                    Figure 3 Unfilled、Boruta screened feature importance maps

                                                               率、召回率、F1 值作为内部验证、最佳模型、外部验
                                                               证的评价指标,选择出集成学习模型为最佳模型。本研
                                                               究结果与 LIU 等    [8] 的研究一致。集成学习         [9] 通过组合
                                                               多个学习算法来达到更佳的预测表现,其使用多个学习
                                                               算法共同决策比使用单个学习算法的预测更加准确,具
                                                               有一定的临床应用价值。董泉明等               [10] 利用多元线性模
                                                               型建立了 FEV 1 预警模型,但该研究未纳入疾病相关因
                                                               素加以探讨。本研究在前人研究的基础上,综合考虑
                                                               了疾病相关因素的变量用于构建气流受限程度的分类模
                                                               型。ZAFARI 等   [11] 开发了一种肺功能下降的个体化预
                    图 2 不填充、Lasso 筛选方法特征重要性
               Figure 2 Unfilled,Lasso screened feature importance maps  测模型,但该研究仅纳入轻中度 COPD 吸烟者,对严重
                                                               的 COPD 患者无法预测。另外,几项研究均是对肺功能
           结果显示,当样本量到达 70% 左右,曲线趋于平缓。                          FEV 1 绝对值进行的预测,而 FEV 1 %则是相对个体化的
           提示此时样本量对预测性能的提升不再增加。                                评价指标,在临床上用途更广,更受到研究者的关注,
           3 讨论                                                因此,更有预测价值         [12-13] 。
               随着患者气流受限严重程度增加,COPD 导致的死                            本研究中模型构建的关键指标有mMRC等级、年龄、
           亡风险也随之增加。因而,明确气流受限程度并实施                             BMI、CAT 评分、是否有吸烟史和呼吸困难。肺通气功
           适当的干预手段,具有重要意义              [7] 。本研究通过构建            能指标与年龄、吸烟史有关,这与既往研究一致                     [14-16] 。
           COPD 患者重度气流受限程度的风险模型,来预测患者                          COPD 患者多为老年人,随年龄增加,呼吸肌收缩力降
           气流受限严重程度。数据通过初筛、缺失值填充、变                             低,胸廓和肺的弹性回缩力下降,支气管管壁萎缩、管
           量特征筛选等数据挖掘过程,以 AUC、准确率、精确                           腔狭窄,导致肺通气阻力增加,气流速度减慢。加之,
   92   93   94   95   96   97   98   99   100   101   102