Page 58 - 中国全科医学2022-11
P. 58

http://www.chinagp.net   E-mail:zgqkyx@chinagp.net.cn  ·1335·


           Levels of serum cholesterol,triglyceride,homocysteine and uric acid were also collected. Variables for building SVM-,
           BPNN- and RF-based models for predicting the risk of CAS were determined using unconditioned multivariate Logistic regression
           analysis and literature review. Results In predicting the risk of CAS in participants in the training set,the accuracy,sensitivity
           and specificity were 83.81%,80.10%,87.32%,respectively,for the SVM-based model,79.27%,66.19%,91.62%,
           respectively,for the BPNN-based model,and 86.60%,73.62%,and 98.90%,respectively,for the RF-based model. And
           the AUC for SVM-,BPNN- and RF-based models was 0.84,0.79 and 0.86,respectively. The SVM-based model had the
           highest sensitivity,while the RF-based model had the highest accuracy and specificity(P<0.05). In predicting the risk of CAS
           in participants in the test set,the accuracy,sensitivity and specificity were 85.70%,81.63%,90.29%,respectively,for
           the SVM-based model,75.46%,64.65%,87.66%,respectively,for the BPNN-based model,and 73.37%,60.00%,and
           88.45%,respectively,for the RF-based model. And the AUC for SVM-,BPNN- and RF-based models was 0.86,0.76,and 0.74,
           respectively. The SVM-based model had the greatest accuracy,sensitivity and AUC. The sensitivity,accuracy and AUC of the
           SVM-based model were significantly different from those of the BPNN- or RF-based model in predicting the CAS risk(P<0.05).
           Conclusion The SVM-based model may be better than other two models in predicting the risk of CAS in steelworkers.
               【Key words】 Carotid artery diseases;Atherosclerosis;Metal workers;Support vector machine;Back propagation
           neural network;Random forest;Forecasting


               颈动脉粥样硬化(carotid atherosclerosis,CAS)是           少吸烟 1 支   [5] )、饮酒〔无论酒水类型(白酒、啤酒、
           一种以内膜大、中动脉增厚为特征的病理改变                     [1] ,是     葡萄酒等),≥ 2 次 / 周,乙醇摄入量≥ 50 g/ 次,连
           心脑血管疾病的诱因         [2] ,其高发病率和致残率不同程                 续饮用≥ 1 年    [5] 〕;(3)个人病史:高血压、糖尿病、
           度地影响着人类健康         [3] 。钢铁工人作为钢铁企业的主                 CAS 家族史;(4)职业史:倒班、高温作业、噪声作业。
           力军,长期暴露于粉尘、高温、噪声等危险因素并面临                            1.3 实验室检查 经研究对象同意后,由医院采集其
           职业紧张和倒班的压力,CAS 发生率也随之增加                   [4] 。     晨起空腹静脉血,使用迈瑞全自动生化分析仪(BS-
               目前,机器学习已广泛应用于医学预测模型,支持                          800)进行血生化检查(胆固醇、三酰甘油、同型半胱
           向量机(Support Vector Machine,SVM)、BP神经网络(Back         氨酸),采集晨尿进行尿酸分析。高胆固醇标准:总胆
           Propagation Neural Network,BPNN)与随机森林(Random        固醇≥ 6.2 mmol/L,高三酰甘油标准:三酰甘油≥ 2.3
           Forest,RF)模型是机器学习中的 3 项重要技术,其中                      mmol/L,高同型半胱氨酸标准:同型半胱氨酸≥ 15
           SVM模型的学习和泛化能力比较强,常应用于文本识别、                          μmmol/L,高尿酸血症标准:男≥ 420 μmmol/L;女
           车辆交通、医疗检测等领域;BPNN 模型在预测和函数                          ≥ 360 μmmol/L。
           逼近方面具有明显的优势;RF 模型凭借计算效率高、                           1.4 CAS 的诊断 由同一超声专业医师使用便携式
           训练速度快而对各行各业的数据分析均能起到推动作                             彩色多普勒超声系统进行诊断,诊断标准:左右侧颈
           用;三者均能够从海量数据中快速挖掘出有效信息,但                            总动脉、颈内动脉、颈外动脉内膜中层厚度(IMT)
           对于不同的数据类型三者的应用效果不同。目前关于 3                           ≥ 1.0 mm 为增厚,IMT ≥ 1.3 mm 为斑块;发现以上任
           种模型预测钢铁工人 CAS 效能方面的比较还鲜有报道。                         一种情况者即为 CAS       [6] 。
           本研究采用 SVM、BPNN 和 RF 模型构建钢铁工人 CAS                    1.5 质量控制 所有团队成员通过统一培训后,一对
           的风险预测模型,并比较三者的预测性能,以期为这一                            一指导研究对象填写《健康评估检查表》,双人核对录
           群体的健康保护与促进以及 CAS 的预防提供指导。                           入数据库,对所用仪器进行严格校正。
           1 对象与方法                                             1.6 统计学方法 采用 SPSS 22.0 软件进行统计学分析。
           1.1 研究对象 选取 2017 年 3—6 月在唐山市弘慈医                     符合正态分布的计量资料以( ±s)表示,两组间比较
           院进行体检和健康监测的 4 568 例钢铁工人。纳入标准:                       采用成组 t 检验,多组间比较采用方差分析;非正态分
           在岗,且工龄≥ 1 年。排除标准:接触过有害影响因素                          布的计量资料以 M(P 25 ,P 75 )表示,组间比较采用非
           者(现在不倒班、不接触高温作业、噪声作业),变量                            参数检验。计数资料以相对数表示,组间比较采用 χ                       2
           信息缺失者。本研究经华北理工大学伦理委员会审核通                            检验。采用非条件多因素 Logistic 回归分析探讨钢铁工
           过(审批号为 15006),研究对象均知情同意。                            人发生 CAS 的影响因素。检验水准 α=0.05(双侧)。
           1.2 资料收集 所有团队成员经统一培训后,按照本                           1.7 建立模型 运用 SPSS Modeler 18.0 导入输入变量
           团队编写的《健康评估检查表》进行调查,调查内容包                            后,在原始数据下 SVM、BPNN 和 RF 3 种模型具有较
           括:(1)人口学特征:性别、年龄、体质指数(BMI)、                         低的灵敏度,但具有较高的特异度,故在建立模型前借
           文化程度、婚姻状况;(2)个人的行为生活习惯与方                            助 R3.6.1 中的 ROSE 包来平衡数据。3 种模型均按 7∶3
           式:吸烟(指连续或累计吸烟 6 个月以上,并且每天至                          的比例将样本数据分为训练集和测试集。训练集用于建
   53   54   55   56   57   58   59   60   61   62   63