Page 97 - 中国全科医学2022-01
P. 97
·222· http://www.chinagp.net E-mail:zgqkyx@chinagp.net.cn
表 2 总数据集变量剔除表
Table 2 Total data set variable elimination
初筛剔 初筛剔
变量名 变量名
除原因 除原因
吸氧(有、无) ② 营养状况 ③
每日吸氧时间 ② 血氧饱和度值 ③
吸氧流量 ② 无创通气使用(有、无) ②
吸氧方式 ② 每天无创通气时间 ③
无创通气方式 ② 佩戴面罩(有、无) ②
是否知晓无创呼吸机湿化 ② 使用经皮血氧饱和度监 ②
罐和呼吸机管道如何消毒 测仪(有、无)
注:①每列数据缺失占比 >90% 的变量;②每列单个类别比例
>90% 的变量;③每列变异系数 <0.05 的变量
图 3 不填充、Boruta 筛选方法特征重要性
Figure 3 Unfilled、Boruta screened feature importance maps
率、召回率、F1 值作为内部验证、最佳模型、外部验
证的评价指标,选择出集成学习模型为最佳模型。本研
究结果与 LIU 等 [8] 的研究一致。集成学习 [9] 通过组合
多个学习算法来达到更佳的预测表现,其使用多个学习
算法共同决策比使用单个学习算法的预测更加准确,具
有一定的临床应用价值。董泉明等 [10] 利用多元线性模
型建立了 FEV 1 预警模型,但该研究未纳入疾病相关因
素加以探讨。本研究在前人研究的基础上,综合考虑
了疾病相关因素的变量用于构建气流受限程度的分类模
型。ZAFARI 等 [11] 开发了一种肺功能下降的个体化预
图 2 不填充、Lasso 筛选方法特征重要性
Figure 2 Unfilled,Lasso screened feature importance maps 测模型,但该研究仅纳入轻中度 COPD 吸烟者,对严重
的 COPD 患者无法预测。另外,几项研究均是对肺功能
结果显示,当样本量到达 70% 左右,曲线趋于平缓。 FEV 1 绝对值进行的预测,而 FEV 1 %则是相对个体化的
提示此时样本量对预测性能的提升不再增加。 评价指标,在临床上用途更广,更受到研究者的关注,
3 讨论 因此,更有预测价值 [12-13] 。
随着患者气流受限严重程度增加,COPD 导致的死 本研究中模型构建的关键指标有mMRC等级、年龄、
亡风险也随之增加。因而,明确气流受限程度并实施 BMI、CAT 评分、是否有吸烟史和呼吸困难。肺通气功
适当的干预手段,具有重要意义 [7] 。本研究通过构建 能指标与年龄、吸烟史有关,这与既往研究一致 [14-16] 。
COPD 患者重度气流受限程度的风险模型,来预测患者 COPD 患者多为老年人,随年龄增加,呼吸肌收缩力降
气流受限严重程度。数据通过初筛、缺失值填充、变 低,胸廓和肺的弹性回缩力下降,支气管管壁萎缩、管
量特征筛选等数据挖掘过程,以 AUC、准确率、精确 腔狭窄,导致肺通气阻力增加,气流速度减慢。加之,