中国全科医学 ›› 2024, Vol. 27 ›› Issue (08): 961-970.DOI: 10.12114/j.issn.1007-9572.2023.0360
邹琼1,2, 吴曦1, 张杨1, 万毅3, 陈长生1,*()
收稿日期:
2023-06-20
修回日期:
2023-09-05
出版日期:
2024-03-15
发布日期:
2023-12-19
通讯作者:
陈长生
基金资助:
ZOU Qiong1,2, WU Xi1, ZHANG Yang1, WAN Yi3, CHEN Changsheng1,*()
Received:
2023-06-20
Revised:
2023-09-05
Published:
2024-03-15
Online:
2023-12-19
Contact:
CHEN Changsheng
摘要: 背景 糖尿病肾病(DN)是糖尿病常见的微血管并发症之一,发病率高,危害性大。早期发现DN对预防相关疾病非常重要。目前大多研究基于传统的统计预测方法,数据需满足其所要求的前提假设条件。近年来已无法很好满足其在DN预测领域的需求,有必要尝试开展机器学习等新方法在DN预测领域的应用。 目的 利用LASSO回归和麻雀搜索算法(SSA)优化的BP神经网络(SSA-BP神经网络)构建DN预测模型。 方法 本研究时间为2023年4—8月,数据来源于公开的伊朗133例糖尿病患者的并发症数据。采用SPSS 26.0软件进行单因素分析,采用LASSO回归筛选变量。以是否患DN为因变量,分别用8∶2和7∶3的比例划分训练集和测试集,使用SSA-BP神经网络进行建模与分析,并与经典的机器学习模型对比预测性能以分析较优的DN模型。基于准确率、精确率、灵敏度、特异度、F1-score和受试者工作特征曲线下面积(AUC)指标进行模型评价。 结果 剔除9例1型糖尿病患者,本研究纳入的有效样本量为124例2型糖尿病(T2DM)患者,其中73例(58.9%)被诊断为DN患者。单因素分析显示年龄、BMI、糖尿病持续时间、空腹血糖(FBG)、糖化血红蛋白(HbA1c)、低密度脂蛋白(LDL)、高密度脂蛋白(HDL)、三酰甘油(TG)、收缩压(SBP)和舒张压(DBP)的T2DM患者DN危险因素(P<0.05)。训练集∶测试集=8∶2时,训练集(n=100)中有59例DN患者,测试集(n=24)含有14例DN患者。LASSO回归筛选出年龄、糖尿病持续时间、HbA1c、LDL和SBP共5个影响因素。Logistic回归(LR)、K近邻(KNN)、支持向量机(SVM)、BP神经网络、SSA-BP神经网络模型在测试集的准确率分别为83.33%、79.17%、79.17%、87.50%、95.83%。F1-score分别为0.846 2、0.800 0、0.800 0、0.888 9、0.960 0。训练集∶测试集=7∶3时,训练集(n=88)中有52例DN患者,测试集(n=36)含有21例DN患者。LASSO回归筛选出年龄、BMI、糖尿病持续时间、LDL、HDL、SBP和DBP这7个影响因素。LR、KNN、SVM、BP神经网络、SSA-BP神经网络模型在测试集的准确率分别为86.11%、86.11%、86.11%、72.22%、91.67%。F1-score分别为0.871 8、0.871 8、0.864 9、0.705 9、0.909 1。 结论 LR、KNN和SVM模型在训练集∶测试集=7∶3时性能较好,BP神经网络和SSA-BP神经网络模型在训练集∶测试集=8∶2时性能较好。相较于BP神经网络模型和传统机器学习模型,SSA-BP神经网络模型的预测性能更佳,可及时准确识别T2DM DN患者,实现DN的早发现和早治疗,从而预防并减缓对其身体带来的危害。
编号 | 变量名 | 赋值情况及值范围 |
---|---|---|
1 | 肾病 | 否=0(对照),是=1 |
2 | 性别 | 女=0(对照),男=1 |
3 | 年龄(岁) | <40=1(对照),40~<60=2,≥60=3 |
4 | BMI(kg/m2) | <18.5=1(对照),18.5~<24.0=2,24.0~<28.0=3,≥28.0=4 |
5 | 糖尿病持续时间(年) | <10=0(对照),≥10=1 |
6 | FBG(mg/dL) | 实测值:80~510 |
7 | HbA1c(mg/dL) | 实测值:6.5~13.3 |
8 | LDL(mg/dL) | 实测值:36~267 |
9 | HDL(mg/dL) | 实测值:20~62 |
10 | TG(mg/dL) | 实测值:74~756 |
11 | 治疗类型 | 口服剂=1(对照),胰岛素=2,二者=3 |
12 | 他汀类药物类型 | 无他汀类药物=1(对照),阿托伐他汀=2,瑞舒伐他汀=3 |
13 | SBP(mmHg) | 实测值:105~180 |
14 | DBP(mmHg) | 实测值:60~120 |
表1 变量赋值说明
Table 1 The description of variable assignment
编号 | 变量名 | 赋值情况及值范围 |
---|---|---|
1 | 肾病 | 否=0(对照),是=1 |
2 | 性别 | 女=0(对照),男=1 |
3 | 年龄(岁) | <40=1(对照),40~<60=2,≥60=3 |
4 | BMI(kg/m2) | <18.5=1(对照),18.5~<24.0=2,24.0~<28.0=3,≥28.0=4 |
5 | 糖尿病持续时间(年) | <10=0(对照),≥10=1 |
6 | FBG(mg/dL) | 实测值:80~510 |
7 | HbA1c(mg/dL) | 实测值:6.5~13.3 |
8 | LDL(mg/dL) | 实测值:36~267 |
9 | HDL(mg/dL) | 实测值:20~62 |
10 | TG(mg/dL) | 实测值:74~756 |
11 | 治疗类型 | 口服剂=1(对照),胰岛素=2,二者=3 |
12 | 他汀类药物类型 | 无他汀类药物=1(对照),阿托伐他汀=2,瑞舒伐他汀=3 |
13 | SBP(mmHg) | 实测值:105~180 |
14 | DBP(mmHg) | 实测值:60~120 |
变量 | 无DN (n=51) | 患DN (n=73) | 检验统计量值 | P值 |
---|---|---|---|---|
性别[例(%)] | 1.759a | 0.185 | ||
女 | 34(66.7) | 40(54.8) | ||
男 | 17(33.3) | 33(45.2) | ||
年龄[例(%)] | 19.229a | <0.001 | ||
<40岁 | 5(9.8) | 4(5.5) | ||
40~<60岁 | 37(72.5) | 28(38.4) | ||
≥60岁 | 9(17.7) | 41(56.1) | ||
BMI[例(%)] | 13.100a | 0.002 | ||
<18.5 kg/m2 | 2(3.9) | 0 | ||
18.5 ~<24.0 kg/m2 | 10(19.6) | 2(2.7) | ||
24.0~<28.0 kg/m2 | 9(17.6) | 12(16.4) | ||
≥28.0 kg/m2 | 30(58.9) | 59(80.9) | ||
糖尿病持续时间[例(%)] | 27.358a | <0.001 | ||
<10年 | 39(76.5) | 21(28.8) | ||
≥10年 | 12(23.5) | 52(71.2) | ||
FBG( | 181.33±65.97 | 229.03±54.84 | -4.381b | <0.001 |
HbA1c[M(QR),%] | 8.10(1.60) | 10.80(0.95) | -5.773c | <0.001 |
LDL( | 109.12±35.17 | 152.68±42.67 | -6.003b | <0.001 |
HDL( | 38.55±8.43 | 35.74±5.84 | 2.193b | 0.030 |
TG( | 181.96±84.95 | 242.04±102.79 | -3.433b | 0.001 |
治疗类型[例(%)] | 4.281a | 0.113 | ||
口服剂 | 35(68.6) | 38(52.1) | ||
胰岛素 | 4(7.8) | 14(19.2) | ||
二者 | 12(23.6) | 21(28.7) | ||
他汀类药物类型[例(%)] | 0.814a | 0.778 | ||
无他汀类药物 | 16(31.3) | 19(26.0) | ||
阿托伐他汀 | 34(66.7) | 53(72.6) | ||
瑞舒伐他汀 | 1(2.0) | 1(1.4) | ||
SBP( | 130±15 | 155±14 | -9.524b | <0.001 |
DBP( | 81±9 | 98±12 | -8.499b | <0.001 |
表2 2型糖尿病肾病患者相关危险因素的单因素分析
Table 2 Univariate analysis of risk factors associated with type 2 diabetic nephropathy
变量 | 无DN (n=51) | 患DN (n=73) | 检验统计量值 | P值 |
---|---|---|---|---|
性别[例(%)] | 1.759a | 0.185 | ||
女 | 34(66.7) | 40(54.8) | ||
男 | 17(33.3) | 33(45.2) | ||
年龄[例(%)] | 19.229a | <0.001 | ||
<40岁 | 5(9.8) | 4(5.5) | ||
40~<60岁 | 37(72.5) | 28(38.4) | ||
≥60岁 | 9(17.7) | 41(56.1) | ||
BMI[例(%)] | 13.100a | 0.002 | ||
<18.5 kg/m2 | 2(3.9) | 0 | ||
18.5 ~<24.0 kg/m2 | 10(19.6) | 2(2.7) | ||
24.0~<28.0 kg/m2 | 9(17.6) | 12(16.4) | ||
≥28.0 kg/m2 | 30(58.9) | 59(80.9) | ||
糖尿病持续时间[例(%)] | 27.358a | <0.001 | ||
<10年 | 39(76.5) | 21(28.8) | ||
≥10年 | 12(23.5) | 52(71.2) | ||
FBG( | 181.33±65.97 | 229.03±54.84 | -4.381b | <0.001 |
HbA1c[M(QR),%] | 8.10(1.60) | 10.80(0.95) | -5.773c | <0.001 |
LDL( | 109.12±35.17 | 152.68±42.67 | -6.003b | <0.001 |
HDL( | 38.55±8.43 | 35.74±5.84 | 2.193b | 0.030 |
TG( | 181.96±84.95 | 242.04±102.79 | -3.433b | 0.001 |
治疗类型[例(%)] | 4.281a | 0.113 | ||
口服剂 | 35(68.6) | 38(52.1) | ||
胰岛素 | 4(7.8) | 14(19.2) | ||
二者 | 12(23.6) | 21(28.7) | ||
他汀类药物类型[例(%)] | 0.814a | 0.778 | ||
无他汀类药物 | 16(31.3) | 19(26.0) | ||
阿托伐他汀 | 34(66.7) | 53(72.6) | ||
瑞舒伐他汀 | 1(2.0) | 1(1.4) | ||
SBP( | 130±15 | 155±14 | -9.524b | <0.001 |
DBP( | 81±9 | 98±12 | -8.499b | <0.001 |
图2 LASSO回归变量筛选注:A、B表示训练集∶测试集=8∶2时,13个变量的系数曲线和10倍交叉验证的LASSO回归选择最佳的变量;C、D表示训练集:测试集=7∶3时,13个变量的系数曲线和10倍交叉验证的LASSO回归选择最佳的变量
Figure 2 LASSO regression screening for variables
模型类型 | 准确率(%) | 精确率(%) | 灵敏度(%) | 特异度(%) | F1-score | AUC | ||
---|---|---|---|---|---|---|---|---|
训练集∶测试集=8∶2 | LR | 训练集 | 89.00 | 90.00 | 91.53 | 85.37 | 0.907 6 | 0.884 5 |
测试集 | 83.33 | 91.67 | 78.57 | 90.00 | 0.846 2 | 0.842 9 | ||
KNN | 训练集 | 91.00 | 94.64 | 89.83 | 92.68 | 0.921 7 | 0.912 6 | |
测试集 | 79.17 | 90.91 | 71.43 | 90.00 | 0.800 0 | 0.807 1 | ||
SVM | 训练集 | 91.00 | 94.64 | 89.83 | 92.68 | 0.921 7 | 0.912 6 | |
测试集 | 79.17 | 90.91 | 71.43 | 90.00 | 0.800 0 | 0.807 1 | ||
BP神经网络 | 训练集 | 86.00 | 84.85 | 93.33 | 75.00 | 0.888 9 | 0.841 7 | |
测试集 | 87.50 | 85.71 | 92.31 | 81.82 | 0.888 9 | 0.870 6 | ||
SSA-BP神经网络 | 训练集 | 92.00 | 94.83 | 91.67 | 92.50 | 0.932 2 | 0.920 8 | |
测试集 | 95.83 | 100.00 | 92.31 | 100.00 | 0.960 0 | 0.961 5 | ||
训练集∶测试集=7∶3 | LR | 训练集 | 87.50 | 90.20 | 88.46 | 86.11 | 0.893 2 | 0.873 0 |
测试集 | 86.11 | 94.44 | 80.95 | 93.33 | 0.871 8 | 0.871 0 | ||
KNN | 训练集 | 94.32 | 97.96 | 92.31 | 97.22 | 0.950 5 | 0.948 0 | |
测试集 | 86.11 | 94.44 | 80.95 | 93.33 | 0.871 8 | 0.871 0 | ||
SVM | 训练集 | 89.77 | 97.78 | 84.62 | 97.22 | 0.907 2 | 0.909 0 | |
测试集 | 86.11 | 100.00 | 76.19 | 100.00 | 0.864 9 | 0.881 0 | ||
BP神经网络 | 训练集 | 85.23 | 92.00 | 83.64 | 87.88 | 0.8762 1 | 0.857 6 | |
测试集 | 72.22 | 75.00 | 66.67 | 77.78 | 0.705 9 | 0.722 2 | ||
SSA-BP神经网络 | 训练集 | 94.32 | 94.64 | 96.36 | 90.91 | 0.955 0 | 0.936 4 | |
测试集 | 91.67 | 100.00 | 83.33 | 100.00 | 0.909 1 | 0.916 7 |
表3 机器学习模型在不同样本拆分比例下预测DN的准确率、精确率、灵敏度、特异度、F1-score和AUC
Table 3 Accuracy,precision,sensitivity,specificity,F1-score and AUC of machine learning models in predicting DN under varied sample splitting ratios
模型类型 | 准确率(%) | 精确率(%) | 灵敏度(%) | 特异度(%) | F1-score | AUC | ||
---|---|---|---|---|---|---|---|---|
训练集∶测试集=8∶2 | LR | 训练集 | 89.00 | 90.00 | 91.53 | 85.37 | 0.907 6 | 0.884 5 |
测试集 | 83.33 | 91.67 | 78.57 | 90.00 | 0.846 2 | 0.842 9 | ||
KNN | 训练集 | 91.00 | 94.64 | 89.83 | 92.68 | 0.921 7 | 0.912 6 | |
测试集 | 79.17 | 90.91 | 71.43 | 90.00 | 0.800 0 | 0.807 1 | ||
SVM | 训练集 | 91.00 | 94.64 | 89.83 | 92.68 | 0.921 7 | 0.912 6 | |
测试集 | 79.17 | 90.91 | 71.43 | 90.00 | 0.800 0 | 0.807 1 | ||
BP神经网络 | 训练集 | 86.00 | 84.85 | 93.33 | 75.00 | 0.888 9 | 0.841 7 | |
测试集 | 87.50 | 85.71 | 92.31 | 81.82 | 0.888 9 | 0.870 6 | ||
SSA-BP神经网络 | 训练集 | 92.00 | 94.83 | 91.67 | 92.50 | 0.932 2 | 0.920 8 | |
测试集 | 95.83 | 100.00 | 92.31 | 100.00 | 0.960 0 | 0.961 5 | ||
训练集∶测试集=7∶3 | LR | 训练集 | 87.50 | 90.20 | 88.46 | 86.11 | 0.893 2 | 0.873 0 |
测试集 | 86.11 | 94.44 | 80.95 | 93.33 | 0.871 8 | 0.871 0 | ||
KNN | 训练集 | 94.32 | 97.96 | 92.31 | 97.22 | 0.950 5 | 0.948 0 | |
测试集 | 86.11 | 94.44 | 80.95 | 93.33 | 0.871 8 | 0.871 0 | ||
SVM | 训练集 | 89.77 | 97.78 | 84.62 | 97.22 | 0.907 2 | 0.909 0 | |
测试集 | 86.11 | 100.00 | 76.19 | 100.00 | 0.864 9 | 0.881 0 | ||
BP神经网络 | 训练集 | 85.23 | 92.00 | 83.64 | 87.88 | 0.8762 1 | 0.857 6 | |
测试集 | 72.22 | 75.00 | 66.67 | 77.78 | 0.705 9 | 0.722 2 | ||
SSA-BP神经网络 | 训练集 | 94.32 | 94.64 | 96.36 | 90.91 | 0.955 0 | 0.936 4 | |
测试集 | 91.67 | 100.00 | 83.33 | 100.00 | 0.909 1 | 0.916 7 |
图4 BP神经网络优化前后的预测值和真实值误差对比图注:A为训练集:测试集=8∶2;B为训练集∶测试集=7∶3。
Figure 4 Comparison of predicted and observed value errors before and after BP neural network optimization
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
黄富程,刘德新,曹杰,等. 基于ABC优化BP神经网络的船舶交通流量预测[J]. 中国航海,2021,44(2):78-83.
|
[6] |
李卫华,徐涛,李小梨. 基于人工蜂群的BP神经网络算法[J]. 计算机系统应用,2012,21(5):195-197,183.
|
[7] |
|
[8] | |
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
李阳,陈晓泓,王一梅,等. 基于LASSO变量选择联合贝叶斯网络构建恶性肿瘤相关急性肾损伤(AKI)风险预测模型[J]. 复旦学报:医学版,2020,47(4):521-530. DOI:10.3969/j.issn.1672-8467.2020.04.009.
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
许条建,金延儒,蒋梅荣,等. 基于麻雀搜索算法优化BP神经网络的深远海养殖平台系缆力预报研究[J]. 渔业现代化,2022,49(6):17-26. DOI:10.3969/j.issn.1007-9580.2022.06.003.
|
[22] |
|
[23] |
|
[24] |
|
[25] |
|
[26] |
|
[27] |
|
[28] |
|
[29] |
高珍秀. 基于深度学习技术的2型糖尿病肾病风险预测模型的构建[D]. 南京:南京中医药大学,2021.
|
[30] |
TODAY Study Group,
|
[31] |
TODAY Study Group. Effects of metabolic factors,race-ethnicity,and sex on the development of nephropathy in adolescents and young adults with type 2 diabetes:results from the TODAY study[J]. Diabetes Care,2021,45(5):1056-1064. DOI:10.2337/dc21-1085.
|
[32] |
|
[33] |
|
[34] |
|
[35] |
|
[36] |
|
[37] |
|
[38] |
何洋. 糖尿病肾病进展的危险因素及预测方程的建立[D]. 兰州:兰州大学,2021.
|
[39] |
|
[40] |
|
[41] |
|
[42] |
马倩倩,孙东旭,石金铭,等. 基于支持向量机与XGboost的成年人群肿瘤患病风险预测研究[J]. 中国全科医学,2020,23(12):1486-1491. DOI:10.12114/j.issn.1007-9572.2020.00.066.
|
[43] |
|
[44] |
于大海,李金,罗艳虹,等. 随机森林模型和决策树模型在肝硬化上消化道出血预后中的应用[J]. 中国卫生统计,2019,36(2):162-166.
|
[45] |
|
[46] |
|
[47] |
|
[48] |
|
[49] |
汪可可,武建辉,周莹,等. 基于BP神经网络的急性脑梗死患者自发性出血性转化的风险预测研究[J]. 中国全科医学,2018,21(12):1413-1418. DOI:10.3969/j.issn.1007-9572.2017.00.189.
|
[50] |
田娟,朱姝婧,陆强,等. 基于BP神经网络预测儿童甲状腺疾病的模型研究[J]. 中国医学物理学杂志,2020,37(10):1340-1344. DOI:10.3969/j.issn.1005-202X.2020.10.022.
|
[51] |
黄仕鑫,浦科学,桑祎莹,等. 基于GA-BP神经网络模型鉴别2型糖尿病性周围神经病变的分类模型研究[J]. 解放军医学杂志,2020,45(1):73-78. DOI:10.11855/j.issn.0577-7402.2020.01.08.
|
[52] | |
[53] |
韦哲,石栋栋,王能才,等. 基于思维进化算法优化的BP神经网络对糖尿病并发症的预测研究[J]. 中国医学装备,2020,17(10):1-4. DOI:10.3969/J.ISSN.1672-8270.2020.10.001.
|
[54] |
|
[55] |
|
[1] | 韩俊杰, 武迪, 陈志胜, 肖扬, 森干. 2型糖尿病患者并发糖尿病肾病风险的列线图预测模型与验证研究[J]. 中国全科医学, 2024, 27(09): 1054-1061. |
[2] | 李子悦, 方珈文, 林凯程. 1990—2019年中国归因于高体质指数的2型糖尿病疾病负担分析与预测研究[J]. 中国全科医学, 2024, 27(09): 1126-1133. |
[3] | 高媛, 周敏, 秦满粉, 许玄, 杨丽萍, 付亚红, 黄莹, 王薇. 健康教练技术联合可穿戴设备对2型糖尿病患者糖脂代谢及自我管理行为的影响研究[J]. 中国全科医学, 2024, 27(08): 908-914. |
[4] | 季纹舟, 黄龙毅, 徐爱军, 赵霞. 供给-需求综合视角下江苏儿科医师队伍紧缺情况研究[J]. 中国全科医学, 2024, 27(07): 829-833. |
[5] | 董晨阳, 李然, 刘若亚, 黄志扬, 杨阳. 基于社区卫生工作者管理下的运动干预对2型糖尿病影响的Meta分析[J]. 中国全科医学, 2024, 27(05): 577-588. |
[6] | 李殿江, 潘恩春, 王苗苗, 孙中明, 文进博, 樊宏, 沈冲. 基于医疗失效模式与效应分析框架的社区2型糖尿病临床惰性形成原因及对策研究[J]. 中国全科医学, 2024, 27(05): 570-576. |
[7] | 曾森祥, 杨锐, 邓勋, 杨睿涛, 杨晓燕. 老年2型糖尿病合并动脉粥样硬化性心血管疾病多重用药管理规范[J]. 中国全科医学, 2024, 27(05): 597-603. |
[8] | 邓煜璇, 黄学君, 江妍霞. 二甲双胍治疗糖尿病肾病的研究进展[J]. 中国全科医学, 2024, 27(03): 262-267. |
[9] | 刘志刚, 刘世蒙, 郑吕云, 薛文静, 曹晨晨, 刘静, 陈英耀. 2型糖尿病患者二线用药偏好研究:基于离散选择实验[J]. 中国全科医学, 2024, 27(01): 67-73. |
[10] | 杨海燕, 李婷, 金光辉, 路孝琴. 基于全科医生视角的2型糖尿病合并慢性肾脏病监测和管理中阻碍因素的质性研究[J]. 中国全科医学, 2024, 27(01): 98-104. |
[11] | 陈艳艳, 石敏, 王奕, 付建芳, 张颖, 刘向阳, 张伟清, 拓胜军, 刘丽文, 李泽平, 周洁, 李晓苗. 2型糖尿病患者亚临床左心室收缩功能与糖尿病微血管并发症的相关性研究[J]. 中国全科医学, 2023, 26(35): 4412-4418. |
[12] | 楚晓婧, 李俊, 付艳芹, 刘丹青, 刘爱萍, 张园园. 人体体质成分及血清生化指标对瞬感扫描式动态血糖监测仪准确性的影响研究[J]. 中国全科医学, 2023, 26(35): 4433-4438. |
[13] | 李殿江, 潘恩春, 孙中明, 文进博, 王苗苗, 武鸣, 沈冲. 社区2型糖尿病患者临床惰性现状及其影响因素分析[J]. 中国全科医学, 2023, 26(34): 4296-4301. |
[14] | 林恺, 姚弥, 陈章, 纪欣鑫, 林润琪, 陈永松, Sim MOIRA. 2型糖尿病治疗负担的概念框架及应对方式:基于视频记录分析[J]. 中国全科医学, 2023, 26(34): 4302-4307. |
[15] | 周小琦, 刘新会, 张微, 李长风, 严亚琼. 老年人丙氨酸氨基转移酶和天冬氨酸氨基转移酶/丙氨酸氨基转移酶与2型糖尿病及代谢综合征的相关性研究[J]. 中国全科医学, 2023, 26(29): 3645-3649. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||