Page 96 - 中国全科医学2022-01
P. 96

http://www.chinagp.net   E-mail:zgqkyx@chinagp.net.cn  ·221·


           以 P<0.05 为差异有统计学意义。                                          表 1 COPD 患者一般临床指标(n=418)
                                                                Table 1 General information of the included COPD patients(n=418)
           2 结果
                                                                      变量          数据          变量         数据
           2.1 研究对象的一般临床指标 本研究共发放问卷
                                                                                        距上次急性发作门诊就
           432 份,回收问卷 418 份,有效回收率为 96.7%。纳                     年龄( ±s,岁)         63.7±10.9  诊天数 ( ±s,d)  0.6±1.8
                                                                                            a
           入的 418 例 COPD 患者中,女 46 例,男 372 例;年龄                 性别〔n(%)〕                 全身激素使用〔n(%)〕
           (63.7±10.9)岁;稳定期 304 例,急性加重期 114 例;                   女              46 (11.0)  无           403 (96.4)
           气流受限轻、中度有 206 例(49.3%),重、极重度有                         男              372 (89.0)  有           15 (3.6)
           212 例(50.7%)。共收集输入变量 50 个,输出变量 1 个,                 病程分期〔n(%)〕               合并肺心病〔n(%)〕
           变量情况见表 1。                                             稳定期            304(72.7)  无           407 (97.4)
                                                                 急性加重期          114(27.3)  有            11 (2.6)
           2.2 数据审核及初步筛选结果 根据上述数据审核和
                                                                         2
                                                               BMI( ±s,kg/m )    23.1±3.6  营养代谢异常〔n(%)〕
           初筛原则,剔除 12 个输入变量。变量剔除的原因汇总
                                                                      a
                                                               受教育程度 〔n(%)〕               无            416 (99.5)
           见表 2。
                                                                 文盲              25 (6.0)  有            2 (0.5)
           2.3 影响气流受限的关键因素 经 4 种缺失值处理和                           小学             150 (36.0) 心血管疾病〔n(%)〕
           3 种特征筛选后,本研究共获得 12 个处理后的数据集                           初中             145 (34.8)  无          408 (97.6)
           及 12 种影响气流受限因素的重要性排序,结果显示,                            高中 / 中专        55 (13.2)  有            10 (2.4)
           mMRC 等级、年龄、BMI、吸烟史(有、无)、CAT 评                         大专及以上          42 (10.0) 其他疾病史〔n(%)〕
           分、呼吸困难(有、无)在变量特征排序中居于前列,                            哮喘症状〔n(%)〕                 无            300 (71.8)
           是构造模型的关键指标,对结果预测有重要作用。其中,                             无              79 (18.9)  有           118 (28.2)
                                                                 有              339 (81.1) COPD 家族史〔n(%)〕
           采取不填充、Lasso 筛选方法后,获得的因素重要性排
                                                               喘息〔n(%)〕                   无            260 (62.2)
           序见图 2。mMRC 等级、吸烟史(有、无)、呼吸困难
                                                                 无              82 (19.6)  有           158 (37.8)
           (有、无)为位居前三的预测因子,mMRC 等级占特征
                                                                 有              336 (80.4) 吸烟史〔n(%)〕
           重要性的 54.15%。使用不填充、Boruta 筛选方法后,获                    呼吸困难〔n(%)〕                 无             91 (21.8)
           得的因素重要性排序见图 3。CAT 评分、年龄、mMRC                          无              62 (14.8)  有           327 (78.2)
           等级为位居前三的预测因子,CAT 评分占特征重要性的                            有              356 (85.2) 吸氧〔n(%)〕
                                                                      a
           26.64%。                                             mMRC 等级 〔n(%)〕             无            389 (93.1)
           2.4 预警模型建立与评价 使用 17 种机器学习和 1 个                        0级              25 (6.0)  有            29 (6.9)
           集成学习算法对 12 个数据集分别建模,共得 216 个预                         1级             145 (34.8) 使用经皮血氧饱和度监测仪〔n(%)〕
                                                                 2级             178 (42.7)  无          413 (98.8)
           测模型。17 种机器学习算法十折交叉验证结果见表 3。
                                                                 3级             68 (16.3)  有            5 (1.2)
           不同算法预测性能比较,差异有统计学意义(P<0.05),
                                                                 4级              1 (0.2)  锻炼〔n(%)〕
           随机梯度下降算法的平均 AUC 最大,为(0.738±0.089)。
                                                               食欲不振〔n(%)〕                 无            109 (26.1)
           使用 Bootstrapping 算法对测试集进行外部验证,结果见                     无              358 (85.6)  有          309 (73.9)
           表 4。不同算法所得模型的预测性能比较,差异有统计                             有              60 (14.4) 缩唇腹式呼吸〔n(%)〕
           学意义(P<0.05),集成学习算法的平均 AUC 最大为                       咳嗽〔n(%)〕                   无            256 (61.2)
           (0.757±0.057)。本研究利用 Bootstrapping 算法对 4               无              71 (17.0)  有           162 (38.8)
           种缺失值处理和 3 种特征筛选预测性能的评价,结果见                            有              347 (83.0) CAT 评分( ±s,分)  12.8±5.6
           表 5~6。当不填充和 Lasso 筛选时,可提高模型的性能,                     急性发作次数( ±s,次)     1.4±1.5  使用吸入剂〔n(%)〕
           差异有统计学意义(P<0.05)。                                   距上次急性发作的天数        1.4±31.7  无            47 (11.2)
                                                               ( ±s,d)
           2.5 预警模型的选择 使用测试集数据对 216 个机器                              b
                                                               致病因素 〔n(%)〕                有            371 (88.8)
           学习模型进行测试,选择 AUC 最大的模型为最佳模型。                           不清楚            139 (33.4) 长期使用吸入药物〔n(%)〕
           AUC 前 5 个最大的模型预测性能指标见表 7,AUC 为                        感冒             244 (58.7)  无           56 (13.4)
           0.790 9,准确率为 75.90%,精确率为 75.00%,召回率                   冷空气             8 (1.9)  有            361 (86.6)
           为 78.57%,F1 值为 0.767 4。ROC 曲线图和 P-R 曲线                其他              8 (1.9)  肺功能中 FEV 1 %〔n(%)〕
           图见图 4~5。                                              运动              6 (1.4)  ≥ 50%        206(49.3)
           2.6 样本量验证 选择最佳模型对应的算法作为样本                             刺激性气体           11 (2.7)  <50%         212(50.7)
                                                               急性发作住院次数( ±s,次)   0.6±1.1
           量验证的算法。将数据集按照 8∶2 划分为训练集和测
                                                                                          b
                                                                     a
                                                                  注: 表示缺失 1 例(n=417); 表示缺失 2 例(n=416);
           试集。对训练集样本分别随机抽取 10%、20%...100%,
                                                               BMI= 体质指数,mMRC= 呼吸困难指数评分,COPD= 慢性阻塞性肺
           进行模型训练,该过程重复 100 次。使用测试集数据对
                                                               疾病,FEV 1 %= 第 1 秒用力呼气量占预计值的百分比,CAT= 慢性阻
           模型进行测试,建立 AUC 与样本量的折线图,见图 6,                        塞性肺疾病评估表
   91   92   93   94   95   96   97   98   99   100   101