Page 96 - 中国全科医学2022-01
P. 96
http://www.chinagp.net E-mail:zgqkyx@chinagp.net.cn ·221·
以 P<0.05 为差异有统计学意义。 表 1 COPD 患者一般临床指标(n=418)
Table 1 General information of the included COPD patients(n=418)
2 结果
变量 数据 变量 数据
2.1 研究对象的一般临床指标 本研究共发放问卷
距上次急性发作门诊就
432 份,回收问卷 418 份,有效回收率为 96.7%。纳 年龄( ±s,岁) 63.7±10.9 诊天数 ( ±s,d) 0.6±1.8
a
入的 418 例 COPD 患者中,女 46 例,男 372 例;年龄 性别〔n(%)〕 全身激素使用〔n(%)〕
(63.7±10.9)岁;稳定期 304 例,急性加重期 114 例; 女 46 (11.0) 无 403 (96.4)
气流受限轻、中度有 206 例(49.3%),重、极重度有 男 372 (89.0) 有 15 (3.6)
212 例(50.7%)。共收集输入变量 50 个,输出变量 1 个, 病程分期〔n(%)〕 合并肺心病〔n(%)〕
变量情况见表 1。 稳定期 304(72.7) 无 407 (97.4)
急性加重期 114(27.3) 有 11 (2.6)
2.2 数据审核及初步筛选结果 根据上述数据审核和
2
BMI( ±s,kg/m ) 23.1±3.6 营养代谢异常〔n(%)〕
初筛原则,剔除 12 个输入变量。变量剔除的原因汇总
a
受教育程度 〔n(%)〕 无 416 (99.5)
见表 2。
文盲 25 (6.0) 有 2 (0.5)
2.3 影响气流受限的关键因素 经 4 种缺失值处理和 小学 150 (36.0) 心血管疾病〔n(%)〕
3 种特征筛选后,本研究共获得 12 个处理后的数据集 初中 145 (34.8) 无 408 (97.6)
及 12 种影响气流受限因素的重要性排序,结果显示, 高中 / 中专 55 (13.2) 有 10 (2.4)
mMRC 等级、年龄、BMI、吸烟史(有、无)、CAT 评 大专及以上 42 (10.0) 其他疾病史〔n(%)〕
分、呼吸困难(有、无)在变量特征排序中居于前列, 哮喘症状〔n(%)〕 无 300 (71.8)
是构造模型的关键指标,对结果预测有重要作用。其中, 无 79 (18.9) 有 118 (28.2)
有 339 (81.1) COPD 家族史〔n(%)〕
采取不填充、Lasso 筛选方法后,获得的因素重要性排
喘息〔n(%)〕 无 260 (62.2)
序见图 2。mMRC 等级、吸烟史(有、无)、呼吸困难
无 82 (19.6) 有 158 (37.8)
(有、无)为位居前三的预测因子,mMRC 等级占特征
有 336 (80.4) 吸烟史〔n(%)〕
重要性的 54.15%。使用不填充、Boruta 筛选方法后,获 呼吸困难〔n(%)〕 无 91 (21.8)
得的因素重要性排序见图 3。CAT 评分、年龄、mMRC 无 62 (14.8) 有 327 (78.2)
等级为位居前三的预测因子,CAT 评分占特征重要性的 有 356 (85.2) 吸氧〔n(%)〕
a
26.64%。 mMRC 等级 〔n(%)〕 无 389 (93.1)
2.4 预警模型建立与评价 使用 17 种机器学习和 1 个 0级 25 (6.0) 有 29 (6.9)
集成学习算法对 12 个数据集分别建模,共得 216 个预 1级 145 (34.8) 使用经皮血氧饱和度监测仪〔n(%)〕
2级 178 (42.7) 无 413 (98.8)
测模型。17 种机器学习算法十折交叉验证结果见表 3。
3级 68 (16.3) 有 5 (1.2)
不同算法预测性能比较,差异有统计学意义(P<0.05),
4级 1 (0.2) 锻炼〔n(%)〕
随机梯度下降算法的平均 AUC 最大,为(0.738±0.089)。
食欲不振〔n(%)〕 无 109 (26.1)
使用 Bootstrapping 算法对测试集进行外部验证,结果见 无 358 (85.6) 有 309 (73.9)
表 4。不同算法所得模型的预测性能比较,差异有统计 有 60 (14.4) 缩唇腹式呼吸〔n(%)〕
学意义(P<0.05),集成学习算法的平均 AUC 最大为 咳嗽〔n(%)〕 无 256 (61.2)
(0.757±0.057)。本研究利用 Bootstrapping 算法对 4 无 71 (17.0) 有 162 (38.8)
种缺失值处理和 3 种特征筛选预测性能的评价,结果见 有 347 (83.0) CAT 评分( ±s,分) 12.8±5.6
表 5~6。当不填充和 Lasso 筛选时,可提高模型的性能, 急性发作次数( ±s,次) 1.4±1.5 使用吸入剂〔n(%)〕
差异有统计学意义(P<0.05)。 距上次急性发作的天数 1.4±31.7 无 47 (11.2)
( ±s,d)
2.5 预警模型的选择 使用测试集数据对 216 个机器 b
致病因素 〔n(%)〕 有 371 (88.8)
学习模型进行测试,选择 AUC 最大的模型为最佳模型。 不清楚 139 (33.4) 长期使用吸入药物〔n(%)〕
AUC 前 5 个最大的模型预测性能指标见表 7,AUC 为 感冒 244 (58.7) 无 56 (13.4)
0.790 9,准确率为 75.90%,精确率为 75.00%,召回率 冷空气 8 (1.9) 有 361 (86.6)
为 78.57%,F1 值为 0.767 4。ROC 曲线图和 P-R 曲线 其他 8 (1.9) 肺功能中 FEV 1 %〔n(%)〕
图见图 4~5。 运动 6 (1.4) ≥ 50% 206(49.3)
2.6 样本量验证 选择最佳模型对应的算法作为样本 刺激性气体 11 (2.7) <50% 212(50.7)
急性发作住院次数( ±s,次) 0.6±1.1
量验证的算法。将数据集按照 8∶2 划分为训练集和测
b
a
注: 表示缺失 1 例(n=417); 表示缺失 2 例(n=416);
试集。对训练集样本分别随机抽取 10%、20%...100%,
BMI= 体质指数,mMRC= 呼吸困难指数评分,COPD= 慢性阻塞性肺
进行模型训练,该过程重复 100 次。使用测试集数据对
疾病,FEV 1 %= 第 1 秒用力呼气量占预计值的百分比,CAT= 慢性阻
模型进行测试,建立 AUC 与样本量的折线图,见图 6, 塞性肺疾病评估表