基于SEIR模型对美国COVID-19疫情传播的预测和分析


1.思路

基于每日发布的COVID-19确诊感染人数,采用SEIR(Susceptible-Exposed-Infected-Recovered)传染病动力学模型,利用最小二乘法对模型中的参数 $\beta,k,\gamma,\mu$ 以及潜伏者的初值E(0)进行拟合估计,选择合适的数据集和参数范围,进一步提高模型预测的精度和准度。该方法能够合理地预测美国COVID-19疫情确诊感染人数、死亡人数和疫情稳定阶段,对美国确诊感染人数的预测平均误差率在6%左右,对于疫情防控具有实用价值,对美国COVID-19疫情传播趋势具有研究意义。

为预测美国COVID-19疫情传播情况,本文主要分为4个部分。

第一部分:建立SEIR模型,在原始模型基础上进行改进,以提高精度和准度。

第二部分:模型求解,获取数据并进行数据预处理,运用最小二乘拟合进行参数估计,进而预测分析确诊感染人数。

第三部分:模型分析,对模型的可行性灵敏度进行分析,确定模型的精度和准度。

2.问题分析

2.1问题重述

以一个国家或一个省/市的数据为例,建立数学模型描述新冠病毒的传播规律,并进行预测和分析,可以美国、香港或上海为例。本文选取美国作为研究对象,进行参数拟合和结果预测。主要的问题如下:

  • 问题1:获取美国自COVID-19疫情发展之初至今的每日总确诊数以及单日新增 感染、治愈、死亡人数,并整合到excel数据表格中;

  • 问题2:基于已知数据,建立COVID-19疫情预测模型,对模型中的参数进行拟合,获取最优拟合参数,预测美国COVID-19疫情传播趋势以及确诊人数;

  • 问题3:对模型进行可行性分析、灵敏度分析以及误差分析,判断预测结果的准确性和精度;
  • 问题4:将模型运用于实际问题中,分析不同疫情防控措施对美国COVID-19疫情传播的影响,获取最佳的防控措施。

2.2研究过程

选取SEIR模型进行数学建模。

研究过程

图1-研究过程

3.合理假设

(1) 不考虑出生和死亡,假设总人口为一个常数;

(2) 治愈后的个体具有免疫能力,不会再次感染;

(3) 人群分为易感人群、潜伏人群、感染人群和康复人群;

(4) 康复人群中包含治愈和死亡人数;

(5) 不考虑疫苗的预防作用。

4.符号定义

表1-符号定义

符号 定义
$\beta$ 感染系数
$k$ 从暴露人群到确诊感染者的概率
$\gamma$ 恢复系数
$\mu$ 死亡率

5.模型求解

5.1获取数据

worldometer网站上有全球范围内较为权威的COVID-19感染人数统计情况,通过python程序获取网站的html文件并通过正则匹配获取美国疫情感染人数,部分数据如表2所示。由于人数较多,在不同时间统计结果中,近期的确诊人数不同,但数据差异不大,可忽略不计。

表2-COVID-19感染人数

日期 现存确诊 新增确诊 总确诊
2020-02-20 10 0 15
2020-02-21 29 20 35
2020-02-22 29 0 35
2020-02-23 28 0 35
2022-04-01 15429442 33740 81823322
2022-04-02 15311698 26663 81849985
2022-04-03 15175351 19579 81869564
2022-04-04 15037249 24048 81893612
2022-04-05 14938259 29696 81923308
2022-04-06 14840712 32311 81955619
2022-04-07 14757686 32659 81988278

感染人数已知数据

图2-感染数据

5.2参数估计

目前已获取美国自疫情传播以来的所有数据,截至2022年4月7日,共有783组数据,数据量较大,可以直接进行参数拟合,不需要进行插值处理。

目前需要进行拟合的未知参数包括 $\beta,k,\gamma,\mu$ 以及E(0)。

考虑到过拟合和病毒传播特性,采用近150天的数据进行最小二乘拟合,拟合后的参数值如表3所示。

表3-拟合后参数值

参数 拟合值
$\beta$ 0.014419668870111
$k$ 0.012296625823406
$\gamma$ 0.001492483739052
$\mu$ 0.008410009646738
E(0) 2.801840825482927e+07

5.3感染人数预测

通过以上模型和拟合过程,基于5.2中拟合出的参数,预测出接下来4年时间美国COVID-19感染人数,得到每日疫情预测情况。预测出的部分数据如表4所示。预测出的美国COVID-19疫情传播趋势如图Y轴为linear形式如图3所示,Y轴为log形式如图4所示。

表4-拟合数据

日期 现存确诊/人数 新增确诊/人数 总确诊/人数
2022-04-08 21791043 249395 87694573
2022-04-09 21824505 249487 87944060
2022-04-10 21857732 249582 88193642
2022-04-11 21890731 249679 88443321
2022-04-12 21923505 249777 88693098
2022-04-13 21956061 249879 88942977
2022-04-14 21988405 249982 89192959
2022-04-15 22020542 250087 89443046
2022-04-16 22052477 250195 89693241
2022-04-17 22084217 250304 89943545

Y轴为linear

图3-Y轴为linear

Y轴为log

图4-Y轴为log

6.模型检验与分析

6.1可行性分析

(1) 模型假设总人口为常数是可行的。在短时间内,出生人口数和死亡人口数可忽略不计。使用2020年至今的数据预测接下来两年时间美国感染人数,总计4年时间,时间较短,人口数量起伏不大,可以忽略不计。

(2) 模型假设治愈后的人群具有免疫能力,康复后不会被感染是可行的。世界卫生组织曾公布康复者仍有可能二次感染,但这里的二次感染大多数是因为核酸检测和抗体检测的假阳性问题,对于完全康复的人群,其二次感染的可能几乎为0,所以可以假设康复人群具有免疫能力。

(3) 假设总人群分为易感人群、潜伏人群、感染人群和康复人群是可行的。美国没有实行严格的防疫措施,几乎没有任何隔离措施,另外美国人更注重自由,所以可以假设所有人都暴露在病毒之下。

6.2灵敏度分析

采用不同的参数结果不同,采用不同参数总确诊数增幅不同,如图5所示。从图中可以看出,beta越大,k越大,gamma越小,mu越小,则总确诊人数的增幅越大,总确诊人数越大。由图6可知,当beta和k增大到一定范围内,对确诊人数的影响较小,不同参数时总确诊人数相同。

灵敏度分析1

图5-参数变化对美国COVID-19疫情传播的影响

灵敏度分析2

图6- $ \beta $ 和 $k$ 较大时对美国COVID-19疫情传播的影响

6.3模型精度

根据真实总感染人数和预测总感染人数计算误差,获取相对误差,2022年03月01至2022年03月10日的真实感染人数和预测感染人数如表5所示。

表5- 美国确诊人数预测结果表

日期 预测确诊 人数 实际确诊 人数 相对误差
2022-03-01 78264620 80807299 3.14%
2022-03-02 78511957 80859204 2.90%
2022-03-03 78759317 80913172 2.66%
2022-03-04 79006701 80961171 2.41%
2022-03-05 79254112 80999815 2.16%
2022-03-06 79501550 81024985 1.88%
2022-03-07 79749019 81053566 1.61%
2022-03-08 79996518 81088326 1.35%
2022-03-09 80244050 81129499 1.09%
2022-03-10 80491618 81173942 0.84%

从表5中可以看出,预测的部分数据误差在0.8%到3.2%之间,误差较小。

在进行拟合的150组数据中,误差范围在0-14.9%之间,平均相对误差为6.42%,拟合效果较好,且有充分的数据支撑,可以较好的模拟出美国COVID-19疫情传播趋势。

6.4误差分析和模型改进

在该模型中,预测的结果仍有平均6.42%的误差,可能是以下几个原因造成的:

(1) 考虑到病毒的不确定性,美国COVID-19新增确诊人数波动性较大,较难获取最佳拟合效果。

(2) 随着疫情的发展以及科学技术水平的不断提高,新冠疫苗问世,但是本模型没有考虑疫苗的作用,可以增加新的变量代表疫苗的预防效果。在疫苗的作用下,接种疫苗的人群感染概率较低,并不均为易感人群。

(3) 本模型使用的数据为近150天的数据,奥密克戎毒株在美国盛行,但未来产生的新变异毒株的传染性未知,可能和奥密克戎毒株差异较大。仅使用SEIR模型具有局限性,可考虑结合其他模型及拟合方法,例如 AI模型,获取更好的拟合效果和预测精度。

(4) 没有考虑隐形传播者,即尚未被确诊但实际上已经感染新冠病毒的混在健康者中的人群,这类人群有更高的感染系数,所以需要对潜伏者和感染者进行重新定义,包含隐形传播者。

(5) 忽略了潜伏期患者的传播风险,潜伏人群仍具有一定的传播风险,但在本模型中将其假设为无传染性。

(6) 没有考虑住院或隔离患者的传染性,隔离和住院感染者可接触到的人群较少,且有较好的防护措施,和普通感染者的感染系数不同。

7. 结论

在不进行附加干预措施的情况下,在2026年左右美国疫情传播将到达稳定阶段,所有COVID-19感染者将会被治愈或死亡,现存确诊较少,仅有 1000例左右,S,E,I,R均趋于稳定,但是此时感染者人数已超过美国总人口的2/3,死亡人数已超过200万人。所以,进行有效的预防措施和接种疫苗是有必要的。

如6.2.2所示 ,降低 $\beta、k、\gamma、\mu$,可以有效降低总确诊人数。

目前beta的值为0.014419668870111,gamma的值为0.001492483739052,最终确诊人数为2.6亿人,如果 $\beta$ 能降低到0.01,最终确诊人数将降低到1.8亿人,可显著减少确诊人数。降低感染系数,首要的措施就是戴口罩,将易感人群和感染者隔离开。同时提高治愈率,这需要生物医学的发展以及政府的资金补助,当 $\gamma$ 同时提高到0.01时,最终确诊人数将降到1.0亿,确诊人数显著减少。

参考文献

[1] 张发,李璐,宣慧玉. 传染病传播模型综述[J]. 系统工程 理论与实践,2011,31( 9) : 1736 - 1744.

[2]须成杰,覃开舟.基于SEIR模型的新型冠状病毒肺炎疫情分析[J].计算机应用与软件,2021,38(12):87-90.(主要)

[3]李静,高媛,黄家妹.基于改进SEIR模型的COVID-19疫情传播建模[J].中北大学学报(自然科学版),2021,42(06):486-494.

[4]陈兴志,田宝单,王代文,黄飞翔,付凌燕,徐浩莹.基于SEIR模型的COVID-19疫情防控效果评估和预测[J].应用数学和力学,2021,42(02):199-211.

[5]张杰豪,陈永雪,申佳瑜,张慧,温永仙.信息效应下SEIR传染病模型的动力学分析[J].数学的实践与认识,2021,51(11):316-323.

[6]杨真真,谢艳秋,靳旭东,庄桂敏.基于ARIMA时间序列模型的传染病发展趋势预测——以COVID-19为例[J].中国科技信息,2021(Z1):70-72.

[7]李静,高媛,黄家妹.基于改进SEIR模型的COVID-19疫情传播建模[J].中北大学学报(自然科学版),2021,42(06):486-494.

[8]钟德炎,陈丽华,吴荣火.新型冠状病毒肺炎(COVID-19)疫情预测——基于残差自回归模型[J].内江科技,2021,42(05):118-119.

[9]谢晓金,罗康洋,张怡,金建炳,林海翔,殷志祥,王国强.非线性组合动态传播率模型与我国COVID-19疫情分析和预测[J].运筹学学报,2021,25(01):17-30.DOI:10.15960/j.cnki.issn.1007-6093.2021.01.002.

[10]刘雅姝,吴琪俊,陆一涵,赵玉虹.新型冠状病毒肺炎(COVID-19)传染病预测模型分析[J].公共卫生与预防医学,2020,31(03):10-13.

[11]白宁,宋晨玮,徐瑞.基于动力学模型的COVID-19疫情预测与控制策略研究[J].应用数学学报,2020,43(03):483-493.

[12]林俊锋.基于引入隐形传播者的SEIR模型的COVID-19疫情分析和预测[J].电子科技大学学报,2020,49(03):375-382.

[13]曹盛力,冯沛华,时朋朋.修正SEIR传染病动力学模型应用于湖北省2019冠状病毒病(COVID-19)疫情预测和评估[J].浙江大学学报(医学版),2020,49(02):178-184.

[14]王志心,刘治,刘兆军.基于机器学习的新型冠状病毒(COVID-19)疫情分析及预测[J].生物医学工程研究,2020,39(01):1-5.DOI:10.19529/j.cnki.1672-6278.2020.01.01.

[15]喻孜,张贵清,刘庆珍,吕忠全.基于时变参数-SIR模型的COVID-19疫情评估和预测[J].电子科技大学学报,2020,49(03):357-361.

附录

附录1——使用的工具和软件

Python & MATLAB

附录2——代码

附录2.1
简介: python爬虫获取美国COVID-19疫情感染人数 数据来源:https://www.worldometers.info/coronavirus/country/us/ 源码在get_data.py文件 运行后获取true data.csv文件
附录2.2
简介: matlab拟合参数及预测美国COVID-19疫情感染人数 完整导出数据以及绘图代码在predict.m文件 optimize.m 为 fmincon优化的目标函数 SEIR.m为SEIR模型函数 运行后获取predict data.csv文件、relative error.csv文件以及比较图

文章作者: 易安
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 易安 !
评论
  目录