Page 72 - 2023-05-中国全科医学
P. 72

2023年2月   第26卷   第5期                                 http: //www.chinagp.net   E-mail: zgqkyx@chinagp.net.cn  ·585·

           行分析。方差膨胀因子(VIF)是常用的检测自变量之                           v i )表示第 i 个样本点的常数项,β k (u i ,v i )表示第 k
           间多重共线性的指标         [17] 。本研究将采用 VIF 对肺结核             个自变量在第 i 个样本点的回归系数,X ik 表示第 i 个样
           发病情况与影响因素之间的关系进行共线性检验,以避                            本点的第 k 个自变量,ε i 表示随机误差。
           免由于影响因素之间的高度共线性而影响回归分析结                                 GTWR 模型是在 GWR 模型的基础上将时间赋值到
           果,其计算公式如下:                                          局部样本点数据集上,求解局部样本点 i 的参数,充分
                      1                                        利用样本数据的时间特性,提高参数估计的准确性。模
               VIF=     2   (1)
                   (1-r )                                      型计算公式为:
               其中,r 为线性回归中的决定系数,反映了回归方
                                                                   Y i =β 0 (u i ,v i ,t i )+ ∑ k β k  (u i ,v i ,t i )X ik +ε i   (5)
           程解释因变量变化的百分比。VIF 越大,说明解释变量
                                                                   其中,Y i 表示第 i 个样本点的因变量,u i 表示第 i
           之间存在共线性的可能性越大,若 VIF 均在 0~10,则影                      个样本点的经度坐标,v i 表示第 i 个样本点的纬度坐标,
           响因素之间不存在高度共线性,可直接进行回归分析                     [18] 。
                                                               t i 表示第 i 个样本点的时间坐标,(u i ,v i ,t i )表示第 i
           1.2.2 空间自相关 使用空间计量学方法的前提是样本
                                                               个样本点的时空维度坐标,β 0 (u i ,v i ,t i )表示第 i 个
           数据之间存在空间异质性,因此在构建 GWR 和 GTWR
                                                               样本点的常数项,β k (u i ,v i ,t i )表示第 k 个解释变量
           模型前需对自变量进行空间自相关分析。通常使用莫
                                                               在第 i 个样本点的回归系数,X ik 表示第 i 个样本点的第
           兰指数(Moran's Ⅰ)进行全局空间自相关分析,以确
                                                               k 个自变量,ε i 表示随机误差。
           定所研究样本点的某一属性值与领域内其他样本点相
                                                                   GWR 与 GTWR 模型的参数方法如下:
           同属性值在空间上是否关联。本研究将通过计算全局                                 ^                                 -1
                                                                   β(u i ,v i ,t i )=〔X W(u i ,v i ,t i )X〕 X W(u i ,
                                                                                                       T
                                                                                    T
           Moran's Ⅰ以确定肺结核发病情况的空间自相关性,其
                                                               v i ,t i )Y (6)
           计算公式如下:                                                 其中,空间权重矩阵 W 是由空间带宽、核函数、
                              -
                                    -
                   n
                 ∑ i=1 ∑ j=1  w ij (x i -x)(x j -x)
                      n
               I=           n  2        (2)                    距离计算公式共同决定。根据既往文献[7],本研究
                        S 0 ∑ i=1  z i                         将基于最小交叉验证(CV)值、高斯(Gaussian)核函
               其中,S 0 为所有样本点之间空间权重的总和,z i 为
                                                               数和欧式距离(Euclidean distance)来共同构建模型。
           样本点 i 的某一属性值与其平均值的偏差。Moran's Ⅰ                                                                     2
           的取值在 -1~1,若指数为正值则表示样本的某一属性                          模型优度通过比较修正后的赤池信息量(AICc)与 R
                                                                          2
                                                               值来评估,R 值越大,AICc 值越小,说明自变量对因
           值在空间上呈现聚集状态,且指数越趋近 1 则聚集程度
                                                               变量的解释度越强。
           越强;若指数为负值则表示样本属性值呈离散分布;指
                                                               1.2.4 统计分析 使用均数、最小值、最大值、四分位
           数为 0 则表示样本属性值呈随机分布,无显著特征。
                                                               数间距来描述 GTWR 模型的拟合系数。基于 GTWR 模
           1.2.3 回归模型构建 本研究分别构建最小二乘法
                                                               型的拟合系数,分别绘制各个变量的核密度图和时空分
           (OLS)模型、GWR 模型和 GTWR 模型对肺结核发病
                                                               布图。使用自然断裂点法对相似度较高的数据进行分组,
           情况进行实证分析,并比较模型优度以确定 GTWR 模
                                                               同时强行将“0”设置为区间值,以区分正系数和负系数,
           型是否为处理肺结核数据的最佳模型。
                                                               当拟合系数为正值时,表示自变量对因变量具有促进作
               OLS 模型是常用的传统线性回归模型,该模型仅对
                                                               用;当拟合系数为负值时,表示自变量对因变量具有抑
           参数进行了平均或全局意义上的估计,但无法体现各参
                                                               制作用,且拟合系数的绝对值越大,作用程度越大。
           数在空间上的非平稳性。模型计算公式为:
                                                                   本研究使用 R 4.1.3 软件进行统计描述,使用 Arc
               Y i =β 0 + ∑ k β k  X ik +ε i   (3)
                                                               GIS 10.7 软件进行模型参数估计和模型构建。
               其中,Y i 表示第 i 个样本点的因变量,β 0 表示线
                                                               2 结果
           性回归方程的截距,β k 表示第 k 个自变量的回归系数,
                                                               2.1 肺结核发病情况的时空分布 2016—2018 年全国
           X ik 表示第 i 个样本点的第 k 个自变量,ε i 表示随机误差。
                                                               肺结核发病率的空间分布见图 1:我国肺结核总发病率
               GWR模型是基于传统线性回归模型改进后的模型,
                                                               在逐年下降,且空间分布较为集中。肺结核发病率较高
           其主要优势是能够将空间权重矩阵运用在线性回归模型
                                                               的地区主要集中在新疆、四川、西藏、青海、贵州、广
           之中,可以更好的展现结果的空间结构分异。模型计算
                                                               西等。其中,新疆的肺结核发病率连续 3 年处于最高水
           公式为:
                                                               平;四川的肺结核发病率在 2016 年处于较高水平,但
               Y i =β 0 (u i ,v i )+ ∑ k β k  (u i ,v i )X ik +ε i   (4)
                                                               随后 2 年发病率大幅下降;西藏、青海的肺结核发病率
               其中,Y i 表示第 i 个样本点的因变量,u i 表示第 i
                                                               在 2016 年处于较低水平,但随后 2 年发病率大幅增加。
           个样本点的经度坐标,v i 表示第 i 个样本点的纬度坐标,
                                                               肺结核发病率较低的地区主要集中在宁夏、天津、上海、
           (u i ,v i )表示第 i 个样本点的空间经纬度坐标,β 0 (u i ,
                                                               北京、海南等。
   67   68   69   70   71   72   73   74   75   76   77