Page 27 - 中国全科医学2022-16期
P. 27
·1944· http://www.chinagp.net E-mail:zgqkyx@chinagp.net.cn
而自回归移动平均(ARIMA)模型和神经网络自回归 成的顶层,以及包含“隐藏神经元”的中间层。把时间
(NNAR)模型均是用于拟合呈现长期趋势、非平稳数 序列的滞后值作为输入构建的神经网络,称为 NNAR(p,
据的常用预测模型 [9-11] 。本研究通过收集 1990—2019 k)。其中 p 表示滞后输入数,k 表示隐藏层中的节点数。
年中国 COPD 患病率、死亡率和 DALYs 率数据,分析 NNAR 模型的构建可通过“forecast”包中的“nnetar”
我国 COPD 疾病负担变化趋势,并分别采用 ARIMA 和 等函数实现。
NNAR 模型进行建模,择优选择模型预测 2020—2024 1.2.2.3 模型比较 采用预测值与实际值的相对误差、
年中国 COPD 的疾病负担。 平均绝对百分误差(MAPE)、平均绝对误差(MAE)
1 资料与方法 及均方根误差(RMSE)对模型的拟合和预测效果进行
1.1 数据来源 1990—2019 年中国 COPD 患病率、死 评价。MAPE、MAE、RMSE 值越小,模型拟合精度越
亡率和 DALYs 率等数据来源于 2019 年全球疾病负担 高,MAPE<15% 时提示预测精度较好 [14] 。最后,利
(GBD 2019)。GBD 2019 采用标准的、可复制的方法 用最佳模型拟合 1990—2019 年中国 COPD 疾病负担,
估算了全球 204 个国家和地区的 369 种疾病和伤害所造 预测得到 2020—2024 年中国 COPD 患病率、死亡率和
成的疾病负担情况,并按国家和地区、年份、性别和年 DALYs 率。
龄组分别报告。疾病负担的详细数据可从全球健康数据 2 结果
交换数据库网站(http://ghdx.healthdata.org/gbd-2019) 2.1 1990—2019 年 中 国 COPD 疾 病 负 担 变 化 趋 势
下载,GBD 数据是一套具有内部一致性和可比性的高 1990—2019 年:(1) 中 国 全 人 群 COPD 患 病 率 从
5
5
质量数据,GBD 2019 的详细介绍和使用方法参见文 2 344.40/10 增至 3 175.37/10 ,增长了 35.45%,年均增
献[12-13]。 长 1.04%(P<0.001);男性和女性 COPD 的患病率均呈
1.2 统计学方法 上升趋势,平均每年分别增长0.92%和1.13%(P<0.001)。
5
1.2.1 疾病负担趋势分析 利用 Excel 2016 建立 1990— (2) 中 国 全 人 群 COPD 死 亡 率 由 105.09/10 下降至
5
2019 年中国 COPD 患病率、死亡率和 DALYs 率数据库, 72.94/10 ,年均降幅为 1.29%(P<0.001);男性和女
对 COPD 疾病负担在全人群及不同性别人群中的变化趋 性的 COPD 死亡率均呈下降趋势,平均每年分别下降
势进行分析,相关指标均采用 GBD 2019 全球标准人口 0.83% 和 1.83%(P<0.001)。(3)中国全人群 DALYs
5
5
进行年龄标准化。变化率 =(2019 年指标值 -1990 年指 率从 2 206.55/10 下降至 1 400.71/10 ,年均下降 1.56%
标值)/1990 年指标值 ×100%。采用对数线性回归模 (P<0.001);男性和女性的 COPD DALYs 率均呈下降
型计算平均年度变化百分比(AAPC),使用 Joinpoint 趋势,平均每年分别下降 1.37% 和 1.86%(P<0.001),
Regression Program 4.9.0.0 软件分析率的变化趋势,AAPC 见表 1。
的检验采用 t 检验,以 P<0.05 为差异有统计学意义。 2.2 COPD 患 病 率 预 测 模 型 构 建 由“auto.arima”
1.2.2 ARIMA、NNAR 模型的建立与比较 利用 1990— 函数得到 AIC 与 BIC 最小的 COPD 患病率预测模型为
2016 年中国 COPD 患病率、死亡率和 DALYs 率作为训 ARIMA(1,2,0)(AIC=222.97,BIC=228.00)。 对
2
练集建立 ARIMA 和 NNAR 模型,利用 2017—2019 年 残差序列进行 Ljung-Box 检验,延迟 6 阶 χ 值为 1.020
2
数据作为测试集进行模型评价。ARIMA、NNAR 模型的 (P=0.985),延迟 12 阶 χ 值为 1.975(P=0.999),
建立与比较基于 R 4.1.0 软件实现。 差异无统计学意义,提示为白噪声。在训练集上:
1.2.2.1 ARIMA 模型建立 ARIMA(p,d,q)是常用 ARIMA(1,2,0)MAPE、MAE、RMSE 分 别 为
的时间序列模型,其中 p、d、q 分别为自回归(AR)、 0.284%、8.048、13.399,提示模型预测性能良好;由
为使数据平稳所需差分和偏自回归(MA)的阶数。利 “nnetar”函数得到的 COPD 患病率模型 NNAR(1,1)
用“forecast”“tseries”包中的“auto.arima”等函数实 的 MAPE、MAE 和 RMSE 分 别 为 0.506%、14.621、
现对 ARIMA 模型的构建。根据赤池信息准则(AIC)和 19.841。ARIMA(1,2,0)和 NNAR(1,1)预测值的
贝叶斯准则(BIC)筛选最优模型类型及参数。对模型 动态趋势与实际情况基本一致(图 1~2)。无论是在训
的残差序列进行Ljung-Box检验,若P>0.05,则通过检验, 练集还是在测试集上,ARIMA(1,2,0)的 MAPE、
提示为白噪声,ARIMA 模型拟合度较好,否则重新建模。 MAE 和 RMSE 值均小于 NNAR(1,1),即 ARIMA 模
1.2.2.2 NNAR 模型建立 人工神经网络是模拟生物神 型更优,见表 2。
经网络的数学模型,允许响应变量和预测变量之间存在 2.3 COPD 死亡率预测模型构建 ARIMA(0,1,1)
复杂非线性关系,其结构主要包括 3 个层次,即由输入 (AIC=79.74,BIC=83.51) 为 AIC 与 BIC 最 小 的 COPD
层(预测变量)形成的底层,由输出层(响应变量)形 死亡率预测模型。对模型进行Ljung-Box 检验,延迟6阶、