Page 127 - 2022-22-中国全科医学
P. 127
·2812· http://www.chinagp.net E-mail:zgqkyx@chinagp.net.cn
研究提供参考与依据。 均得到明显改善。根据美国预防服务工作组(USPSTF)发布
1 “大数据”在慢性病防控中的意义 的筛选标准:(1)当总体特异度为 0.83 时,基于循环蛋白生
传统慢性病管理模式主要包括生物医学管理模式、认知 物标志物、吸烟情况建立的肺癌风险预测模型的灵敏度分别
行为干预模式和心理动力干预模式,是长久以来医学各领域 为 0.63、0.43;(2)当总体灵敏度为 0.42 时,基于循环蛋白
通过积极探索而形成的有效模式 [6] 。然而,传统慢性病管理 生物标志物、吸烟情况构建的肺癌风险预测模型的特异度分
模式仍存在一定不足:(1)人群监测范围受限,监测的危险 别为 0.95、0.86。REZAEE 等 [16] 通过递归特征消除法(RFE)
因素种类少,监测数据的准确性、连续性和完整性难以保证; 自动筛选用于预测的最佳变量集(变量集中的变量不仅包括
(2)预防和管理策略多具有通用性,在制定和实施时未能充 传统危险因素,还包括多种血液生物标志物和合并症),构
分考虑个体需求的差异;(3)个体自我管理能力较弱、缺乏 建了具有良好预测性能和可重复性的异质性心血管疾病风险
慢性病相关知识、依从性较差,导致健康干预效果减弱 [6] 。 预测模型,该模型对冠状动脉疾病、卒中的区分能力均处于
而“大数据”的利用成为改变现状、突破“瓶颈”的关键点。 中等水平(C 指数分别为 0.794、0.778)。未来仍需要在大样
近年来,在数据爆炸式增长的背景下,“大数据”这一 本人群中对上述基于生物标志物建立的疾病风险预测模型进
术语应运而生。“大数据”的特点可用“3v”概括,即大量 行验证和校准。
(volume)、高速(velocity)和多样(variety);还有一部分 而在人工智能技术探索的道路上,更多高性能、灵活性
学者认为“大数据”具有“5v”特点,即大量(volume)、 更强的机器学习算法被开发出来。WANG 等 [17] 利用纵向监
高速(velocity)、多样(variety)、价值(value)和真实性 测病例随访队列信息数据库,基于长短时记忆循环神经网络
(veracity) [7-9] 。在“大数据时代”,数据已成为世界各 (RNN)开发了一种多疾病风险预测模型,该模型能够较好
国的基础性战略资源。做好数据治理不仅有助于提高政府的 地预测患者未来发生疾病的风险。我国学者黄旭等 [18] 采用随
社会治理能力,还有利于提升公共服务水平。此外,“大数 机森林、梯度提升决策树和极端梯度提升 3 种集成学习算法
据”技术的产生与发展也推动了信息技术的飞速发展。过去 对慢性病进行分类,将多疾病风险预测问题转化为多标签分
的二十年里,组学、可穿戴设备、传感器、人工智能、数字 类问题,并进一步建立了神经网络模型,以实现对多种疾病
医疗与创新技术取得了巨大的进步,并被应用于精准化、个 风险的预测。虽然该方法提高了模型对数据的适应能力、运
体化医疗领域 [10] 。移动健康管理设备可通过人体体征传感器 算速度和高维参数寻优速度,但研究者仍需进一步利用不同
获取个体的健康“大数据”,如慢性病特征(心率、血压、 数据处理方法,构建更为复杂多变的神经网络模型,同时在
血糖等)及生活 / 行为习惯(吸烟、饮酒、睡眠情况等)等方 进行问题转化的过程中也要考虑标签间关联性的问题。此外,
面的信息,并将其上传至云平台,进而使患者 / 医务人员能够 在基因测序等技术快速发展的背景下,研究者也尝试将多组
随时随地对自身 / 患者的健康状况进行监测,有效地改善了传 学研究引入慢性病风险预测领域。CHOI 等 [19] 考虑了逐步逻
统慢性病管理模式下,人群健康数据可获得性水平较低、连 辑回归(SLR)等变量选择和预测方法对 2 型糖尿病风险预测
续性不足和时效性较差等问题 [11] 。除了可助益个体水平上的 模型性能的影响,以及单核苷酸多态性(SNP)数据集对风险
慢性病防控外,医疗健康“大数据”的应用还能为群体水平 预测效能的影响,发现包含人口统计变量和遗传变量的预测
上的慢性病防控带来新模式,助力实现慢性病群体特征刻画、 模型与仅包含人口统计变量的预测模型相比,在预测 2 型糖
慢性病发展预测等,进而可促进慢性病并发症风险防范和预 尿病发生上更准确。MARS 等 [20] 评价了全基因组多基因风险
警效果、慢性病防治工作水平的提升 [12] 。随着“大数据”逐 评分(PRS)在冠心病、2 型糖尿病等 5 种慢性病风险预测中
步应用于慢性病防治管理领域,国内外许多学者对慢性病防 的附加价值,并评估了不同 PRS 水平下个体的终生患病风险
控新模式开展了研究,且相关研究工作已取得了一定的成效。 及不同 PRS 水平对疾病发病和风险预测的影响。研究结果显
2 “大数据”在慢性病风险预测中的应用 示,与平均 PRS 水平相比,高 PRS 可能会导致个体终生患病
随着“大数据时代”的到来,“大数据”逐渐成为产学 风险增加 21%~38%、疾病发病时间提前 4~9 年。调整年龄和
两界共同关注的焦点。作为分析“大数据”价值的关键技术, 性别的影响后,PRS 还有助于改善模型对 2 型糖尿病、心房
机器学习技术使研究人员能够更好地分析健康医疗“大数据” 颤动、乳腺癌和前列腺癌的预测价值。除传统的三大组学外,
复杂多变的内部联系,已被广泛应用于数据挖掘、病因探索 转录组学、表观基因组学等新兴组学的出现也促进了研究者
等领域,在疾病早期预测与诊断及预后评估中发挥着重要作 对疾病风险预测的理解 [21] 。但值得注意的是,多基因、多组
用 [13] 。周阳等 [14] 选取了约 20 万份居民健康档案,通过机 学技术在临床中的实际应用效果仍有待进一步研究确认。
器学习中的逻辑回归、随机森林和支持向量机算法建立了 3 疾病风险预测是预防控制慢性病的有效措施之一。近年
种高血压风险预测模型,并对 3 种模型在高血压风险预测中 来,各种算法和模型不断被应用于慢性病风险预测领域,多
的应用价值进行比较、分析。研究结果显示,基于支持向量 疾病、多基因、多组学研究取得的成果也进一步推动了慢性
机建立的高血压风险预测模型的预测性能最为优异,预测准 病风险预测研究的深入开展。但目前,国内外相关风险预测
确率达 87%。GUIDA 等 [15] 利用逻辑回归算法构建了基于循 模型中变量的种类较为局限,模型构建时使用的算法较为单
环蛋白生物标志物的肺癌风险预测模型。相比于传统基于吸 一。同时,训练数据集和测试数据集的代表性不足,也可能
烟情况建立的肺癌风险预测模型,该模型的灵敏度和特异度 导致研究结果的论证强度受限。未来在开展慢性病风险预测