Page 72 - 2023-05-中国全科医学
P. 72
2023年2月 第26卷 第5期 http: //www.chinagp.net E-mail: zgqkyx@chinagp.net.cn ·585·
行分析。方差膨胀因子(VIF)是常用的检测自变量之 v i )表示第 i 个样本点的常数项,β k (u i ,v i )表示第 k
间多重共线性的指标 [17] 。本研究将采用 VIF 对肺结核 个自变量在第 i 个样本点的回归系数,X ik 表示第 i 个样
发病情况与影响因素之间的关系进行共线性检验,以避 本点的第 k 个自变量,ε i 表示随机误差。
免由于影响因素之间的高度共线性而影响回归分析结 GTWR 模型是在 GWR 模型的基础上将时间赋值到
果,其计算公式如下: 局部样本点数据集上,求解局部样本点 i 的参数,充分
1 利用样本数据的时间特性,提高参数估计的准确性。模
VIF= 2 (1)
(1-r ) 型计算公式为:
其中,r 为线性回归中的决定系数,反映了回归方
Y i =β 0 (u i ,v i ,t i )+ ∑ k β k (u i ,v i ,t i )X ik +ε i (5)
程解释因变量变化的百分比。VIF 越大,说明解释变量
其中,Y i 表示第 i 个样本点的因变量,u i 表示第 i
之间存在共线性的可能性越大,若 VIF 均在 0~10,则影 个样本点的经度坐标,v i 表示第 i 个样本点的纬度坐标,
响因素之间不存在高度共线性,可直接进行回归分析 [18] 。
t i 表示第 i 个样本点的时间坐标,(u i ,v i ,t i )表示第 i
1.2.2 空间自相关 使用空间计量学方法的前提是样本
个样本点的时空维度坐标,β 0 (u i ,v i ,t i )表示第 i 个
数据之间存在空间异质性,因此在构建 GWR 和 GTWR
样本点的常数项,β k (u i ,v i ,t i )表示第 k 个解释变量
模型前需对自变量进行空间自相关分析。通常使用莫
在第 i 个样本点的回归系数,X ik 表示第 i 个样本点的第
兰指数(Moran's Ⅰ)进行全局空间自相关分析,以确
k 个自变量,ε i 表示随机误差。
定所研究样本点的某一属性值与领域内其他样本点相
GWR 与 GTWR 模型的参数方法如下:
同属性值在空间上是否关联。本研究将通过计算全局 ^ -1
β(u i ,v i ,t i )=〔X W(u i ,v i ,t i )X〕 X W(u i ,
T
T
Moran's Ⅰ以确定肺结核发病情况的空间自相关性,其
v i ,t i )Y (6)
计算公式如下: 其中,空间权重矩阵 W 是由空间带宽、核函数、
-
-
n
∑ i=1 ∑ j=1 w ij (x i -x)(x j -x)
n
I= n 2 (2) 距离计算公式共同决定。根据既往文献[7],本研究
S 0 ∑ i=1 z i 将基于最小交叉验证(CV)值、高斯(Gaussian)核函
其中,S 0 为所有样本点之间空间权重的总和,z i 为
数和欧式距离(Euclidean distance)来共同构建模型。
样本点 i 的某一属性值与其平均值的偏差。Moran's Ⅰ 2
的取值在 -1~1,若指数为正值则表示样本的某一属性 模型优度通过比较修正后的赤池信息量(AICc)与 R
2
值来评估,R 值越大,AICc 值越小,说明自变量对因
值在空间上呈现聚集状态,且指数越趋近 1 则聚集程度
变量的解释度越强。
越强;若指数为负值则表示样本属性值呈离散分布;指
1.2.4 统计分析 使用均数、最小值、最大值、四分位
数为 0 则表示样本属性值呈随机分布,无显著特征。
数间距来描述 GTWR 模型的拟合系数。基于 GTWR 模
1.2.3 回归模型构建 本研究分别构建最小二乘法
型的拟合系数,分别绘制各个变量的核密度图和时空分
(OLS)模型、GWR 模型和 GTWR 模型对肺结核发病
布图。使用自然断裂点法对相似度较高的数据进行分组,
情况进行实证分析,并比较模型优度以确定 GTWR 模
同时强行将“0”设置为区间值,以区分正系数和负系数,
型是否为处理肺结核数据的最佳模型。
当拟合系数为正值时,表示自变量对因变量具有促进作
OLS 模型是常用的传统线性回归模型,该模型仅对
用;当拟合系数为负值时,表示自变量对因变量具有抑
参数进行了平均或全局意义上的估计,但无法体现各参
制作用,且拟合系数的绝对值越大,作用程度越大。
数在空间上的非平稳性。模型计算公式为:
本研究使用 R 4.1.3 软件进行统计描述,使用 Arc
Y i =β 0 + ∑ k β k X ik +ε i (3)
GIS 10.7 软件进行模型参数估计和模型构建。
其中,Y i 表示第 i 个样本点的因变量,β 0 表示线
2 结果
性回归方程的截距,β k 表示第 k 个自变量的回归系数,
2.1 肺结核发病情况的时空分布 2016—2018 年全国
X ik 表示第 i 个样本点的第 k 个自变量,ε i 表示随机误差。
肺结核发病率的空间分布见图 1:我国肺结核总发病率
GWR模型是基于传统线性回归模型改进后的模型,
在逐年下降,且空间分布较为集中。肺结核发病率较高
其主要优势是能够将空间权重矩阵运用在线性回归模型
的地区主要集中在新疆、四川、西藏、青海、贵州、广
之中,可以更好的展现结果的空间结构分异。模型计算
西等。其中,新疆的肺结核发病率连续 3 年处于最高水
公式为:
平;四川的肺结核发病率在 2016 年处于较高水平,但
Y i =β 0 (u i ,v i )+ ∑ k β k (u i ,v i )X ik +ε i (4)
随后 2 年发病率大幅下降;西藏、青海的肺结核发病率
其中,Y i 表示第 i 个样本点的因变量,u i 表示第 i
在 2016 年处于较低水平,但随后 2 年发病率大幅增加。
个样本点的经度坐标,v i 表示第 i 个样本点的纬度坐标,
肺结核发病率较低的地区主要集中在宁夏、天津、上海、
(u i ,v i )表示第 i 个样本点的空间经纬度坐标,β 0 (u i ,
北京、海南等。