1.思路
基于每日发布的COVID-19确诊感染人数,采用SEIR(Susceptible-Exposed-Infected-Recovered)传染病动力学模型,利用最小二乘法
对模型中的参数 $\beta,k,\gamma,\mu$ 以及潜伏者的初值E(0)进行拟合估计,选择合适的数据集和参数范围,进一步提高模型预测的精度和准度。该方法能够合理地预测美国COVID-19疫情确诊感染人数、死亡人数和疫情稳定阶段,对美国确诊感染人数的预测平均误差率在6%左右,对于疫情防控具有实用价值,对美国COVID-19疫情传播趋势具有研究意义。
为预测美国COVID-19疫情传播情况,本文主要分为4个部分。
第一部分:建立SEIR模型
,在原始模型基础上进行改进,以提高精度和准度。
第二部分:模型求解,获取数据并进行数据预处理
,运用最小二乘拟合
进行参数估计
,进而预测分析确诊感染人数。
第三部分:模型分析,对模型的可行性
和灵敏度
进行分析,确定模型的精度和准度。
2.问题分析
2.1问题重述
以一个国家或一个省/市的数据为例,建立数学模型描述新冠病毒的传播规律,并进行预测和分析,可以美国、香港或上海为例。本文选取美国作为研究对象,进行参数拟合和结果预测。主要的问题如下:
问题1:获取美国自COVID-19疫情发展之初至今的每日总确诊数以及单日新增 感染、治愈、死亡人数,并整合到excel数据表格中;
问题2:基于已知数据,建立COVID-19疫情预测模型,对模型中的参数进行拟合,获取最优拟合参数,预测美国COVID-19疫情传播趋势以及确诊人数;
- 问题3:对模型进行可行性分析、灵敏度分析以及误差分析,判断预测结果的准确性和精度;
- 问题4:将模型运用于实际问题中,分析不同疫情防控措施对美国COVID-19疫情传播的影响,获取最佳的防控措施。
2.2研究过程
选取SEIR模型进行数学建模。
图1-研究过程
3.合理假设
(1) 不考虑出生和死亡,假设总人口为一个常数;
(2) 治愈后的个体具有免疫能力,不会再次感染;
(3) 人群分为易感人群、潜伏人群、感染人群和康复人群;
(4) 康复人群中包含治愈和死亡人数;
(5) 不考虑疫苗的预防作用。
4.符号定义
表1-符号定义
符号 | 定义 |
---|---|
$\beta$ | 感染系数 |
$k$ | 从暴露人群到确诊感染者的概率 |
$\gamma$ | 恢复系数 |
$\mu$ | 死亡率 |
5.模型求解
5.1获取数据
在worldometer网站上有全球范围内较为权威的COVID-19感染人数统计情况,通过python程序获取网站的html文件并通过正则匹配获取美国疫情感染人数,部分数据如表2所示。由于人数较多,在不同时间统计结果中,近期的确诊人数不同,但数据差异不大,可忽略不计。
表2-COVID-19感染人数
日期 | 现存确诊 | 新增确诊 | 总确诊 |
---|---|---|---|
2020-02-20 | 10 | 0 | 15 |
2020-02-21 | 29 | 20 | 35 |
2020-02-22 | 29 | 0 | 35 |
2020-02-23 | 28 | 0 | 35 |
2022-04-01 | 15429442 | 33740 | 81823322 |
2022-04-02 | 15311698 | 26663 | 81849985 |
2022-04-03 | 15175351 | 19579 | 81869564 |
2022-04-04 | 15037249 | 24048 | 81893612 |
2022-04-05 | 14938259 | 29696 | 81923308 |
2022-04-06 | 14840712 | 32311 | 81955619 |
2022-04-07 | 14757686 | 32659 | 81988278 |
图2-感染数据
5.2参数估计
目前已获取美国自疫情传播以来的所有数据,截至2022年4月7日,共有783组数据,数据量较大,可以直接进行参数拟合,不需要进行插值处理。
目前需要进行拟合的未知参数包括 $\beta,k,\gamma,\mu$ 以及E(0)。
考虑到过拟合和病毒传播特性,采用近150天的数据进行最小二乘拟合,拟合后的参数值如表3所示。
表3-拟合后参数值
参数 | 拟合值 |
---|---|
$\beta$ | 0.014419668870111 |
$k$ | 0.012296625823406 |
$\gamma$ | 0.001492483739052 |
$\mu$ | 0.008410009646738 |
E(0) | 2.801840825482927e+07 |
5.3感染人数预测
通过以上模型和拟合过程,基于5.2中拟合出的参数,预测出接下来4年时间美国COVID-19感染人数,得到每日疫情预测情况。预测出的部分数据如表4所示。预测出的美国COVID-19疫情传播趋势如图Y轴为linear形式如图3所示,Y轴为log形式如图4所示。
表4-拟合数据
日期 | 现存确诊/人数 | 新增确诊/人数 | 总确诊/人数 |
---|---|---|---|
2022-04-08 | 21791043 | 249395 | 87694573 |
2022-04-09 | 21824505 | 249487 | 87944060 |
2022-04-10 | 21857732 | 249582 | 88193642 |
2022-04-11 | 21890731 | 249679 | 88443321 |
2022-04-12 | 21923505 | 249777 | 88693098 |
2022-04-13 | 21956061 | 249879 | 88942977 |
2022-04-14 | 21988405 | 249982 | 89192959 |
2022-04-15 | 22020542 | 250087 | 89443046 |
2022-04-16 | 22052477 | 250195 | 89693241 |
2022-04-17 | 22084217 | 250304 | 89943545 |
图3-Y轴为linear
图4-Y轴为log
6.模型检验与分析
6.1可行性分析
(1) 模型假设总人口为常数是可行的。在短时间内,出生人口数和死亡人口数可忽略不计。使用2020年至今的数据预测接下来两年时间美国感染人数,总计4年时间,时间较短,人口数量起伏不大,可以忽略不计。
(2) 模型假设治愈后的人群具有免疫能力,康复后不会被感染是可行的。世界卫生组织曾公布康复者仍有可能二次感染,但这里的二次感染大多数是因为核酸检测和抗体检测的假阳性问题,对于完全康复的人群,其二次感染的可能几乎为0,所以可以假设康复人群具有免疫能力。
(3) 假设总人群分为易感人群、潜伏人群、感染人群和康复人群是可行的。美国没有实行严格的防疫措施,几乎没有任何隔离措施,另外美国人更注重自由,所以可以假设所有人都暴露在病毒之下。
6.2灵敏度分析
采用不同的参数结果不同,采用不同参数总确诊数增幅不同,如图5所示。从图中可以看出,beta越大,k越大,gamma越小,mu越小,则总确诊人数的增幅越大,总确诊人数越大。由图6可知,当beta和k增大到一定范围内,对确诊人数的影响较小,不同参数时总确诊人数相同。
图5-参数变化对美国COVID-19疫情传播的影响
图6- $ \beta $ 和 $k$ 较大时对美国COVID-19疫情传播的影响
6.3模型精度
根据真实总感染人数和预测总感染人数计算误差,获取相对误差,2022年03月01至2022年03月10日的真实感染人数和预测感染人数如表5所示。
表5- 美国确诊人数预测结果表
日期 | 预测确诊 人数 | 实际确诊 人数 | 相对误差 |
---|---|---|---|
2022-03-01 | 78264620 | 80807299 | 3.14% |
2022-03-02 | 78511957 | 80859204 | 2.90% |
2022-03-03 | 78759317 | 80913172 | 2.66% |
2022-03-04 | 79006701 | 80961171 | 2.41% |
2022-03-05 | 79254112 | 80999815 | 2.16% |
2022-03-06 | 79501550 | 81024985 | 1.88% |
2022-03-07 | 79749019 | 81053566 | 1.61% |
2022-03-08 | 79996518 | 81088326 | 1.35% |
2022-03-09 | 80244050 | 81129499 | 1.09% |
2022-03-10 | 80491618 | 81173942 | 0.84% |
从表5中可以看出,预测的部分数据误差在0.8%到3.2%之间,误差较小。
在进行拟合的150组数据中,误差范围在0-14.9%之间,平均相对误差为6.42%,拟合效果较好,且有充分的数据支撑,可以较好的模拟出美国COVID-19疫情传播趋势。
6.4误差分析和模型改进
在该模型中,预测的结果仍有平均6.42%的误差,可能是以下几个原因造成的:
(1) 考虑到病毒的不确定性,美国COVID-19新增确诊人数波动性较大,较难获取最佳拟合效果。
(2) 随着疫情的发展以及科学技术水平的不断提高,新冠疫苗问世,但是本模型没有考虑疫苗的作用,可以增加新的变量代表疫苗的预防效果。在疫苗的作用下,接种疫苗的人群感染概率较低,并不均为易感人群。
(3) 本模型使用的数据为近150天的数据,奥密克戎毒株在美国盛行,但未来产生的新变异毒株的传染性未知,可能和奥密克戎毒株差异较大。仅使用SEIR模型具有局限性,可考虑结合其他模型及拟合方法,例如 AI模型,获取更好的拟合效果和预测精度。
(4) 没有考虑隐形传播者,即尚未被确诊但实际上已经感染新冠病毒的混在健康者中的人群,这类人群有更高的感染系数,所以需要对潜伏者和感染者进行重新定义,包含隐形传播者。
(5) 忽略了潜伏期患者的传播风险,潜伏人群仍具有一定的传播风险,但在本模型中将其假设为无传染性。
(6) 没有考虑住院或隔离患者的传染性,隔离和住院感染者可接触到的人群较少,且有较好的防护措施,和普通感染者的感染系数不同。
7. 结论
在不进行附加干预措施的情况下,在2026年左右美国疫情传播将到达稳定阶段,所有COVID-19感染者将会被治愈或死亡,现存确诊较少,仅有 1000例左右,S,E,I,R均趋于稳定,但是此时感染者人数已超过美国总人口的2/3,死亡人数已超过200万人。所以,进行有效的预防措施和接种疫苗是有必要的。
如6.2.2所示 ,降低 $\beta、k、\gamma、\mu$,可以有效降低总确诊人数。
目前beta的值为0.014419668870111,gamma的值为0.001492483739052,最终确诊人数为2.6亿人,如果 $\beta$ 能降低到0.01,最终确诊人数将降低到1.8亿人,可显著减少确诊人数。降低感染系数,首要的措施就是戴口罩,将易感人群和感染者隔离开。同时提高治愈率,这需要生物医学的发展以及政府的资金补助,当 $\gamma$ 同时提高到0.01时,最终确诊人数将降到1.0亿,确诊人数显著减少。
参考文献
[1] 张发,李璐,宣慧玉. 传染病传播模型综述[J]. 系统工程 理论与实践,2011,31( 9) : 1736 - 1744.
[2]须成杰,覃开舟.基于SEIR模型的新型冠状病毒肺炎疫情分析[J].计算机应用与软件,2021,38(12):87-90.(主要)
[3]李静,高媛,黄家妹.基于改进SEIR模型的COVID-19疫情传播建模[J].中北大学学报(自然科学版),2021,42(06):486-494.
[4]陈兴志,田宝单,王代文,黄飞翔,付凌燕,徐浩莹.基于SEIR模型的COVID-19疫情防控效果评估和预测[J].应用数学和力学,2021,42(02):199-211.
[5]张杰豪,陈永雪,申佳瑜,张慧,温永仙.信息效应下SEIR传染病模型的动力学分析[J].数学的实践与认识,2021,51(11):316-323.
[6]杨真真,谢艳秋,靳旭东,庄桂敏.基于ARIMA时间序列模型的传染病发展趋势预测——以COVID-19为例[J].中国科技信息,2021(Z1):70-72.
[7]李静,高媛,黄家妹.基于改进SEIR模型的COVID-19疫情传播建模[J].中北大学学报(自然科学版),2021,42(06):486-494.
[8]钟德炎,陈丽华,吴荣火.新型冠状病毒肺炎(COVID-19)疫情预测——基于残差自回归模型[J].内江科技,2021,42(05):118-119.
[9]谢晓金,罗康洋,张怡,金建炳,林海翔,殷志祥,王国强.非线性组合动态传播率模型与我国COVID-19疫情分析和预测[J].运筹学学报,2021,25(01):17-30.DOI:10.15960/j.cnki.issn.1007-6093.2021.01.002.
[10]刘雅姝,吴琪俊,陆一涵,赵玉虹.新型冠状病毒肺炎(COVID-19)传染病预测模型分析[J].公共卫生与预防医学,2020,31(03):10-13.
[11]白宁,宋晨玮,徐瑞.基于动力学模型的COVID-19疫情预测与控制策略研究[J].应用数学学报,2020,43(03):483-493.
[12]林俊锋.基于引入隐形传播者的SEIR模型的COVID-19疫情分析和预测[J].电子科技大学学报,2020,49(03):375-382.
[13]曹盛力,冯沛华,时朋朋.修正SEIR传染病动力学模型应用于湖北省2019冠状病毒病(COVID-19)疫情预测和评估[J].浙江大学学报(医学版),2020,49(02):178-184.
[14]王志心,刘治,刘兆军.基于机器学习的新型冠状病毒(COVID-19)疫情分析及预测[J].生物医学工程研究,2020,39(01):1-5.DOI:10.19529/j.cnki.1672-6278.2020.01.01.
[15]喻孜,张贵清,刘庆珍,吕忠全.基于时变参数-SIR模型的COVID-19疫情评估和预测[J].电子科技大学学报,2020,49(03):357-361.
附录
附录1——使用的工具和软件
Python & MATLAB
附录2——代码
附录2.1 |
---|
简介: python爬虫获取美国COVID-19疫情感染人数 数据来源:https://www.worldometers.info/coronavirus/country/us/ 源码在get_data.py文件 运行后获取true data.csv文件 |
附录2.2 |
---|
简介: matlab拟合参数及预测美国COVID-19疫情感染人数 完整导出数据以及绘图代码在predict.m文件 optimize.m 为 fmincon优化的目标函数 SEIR.m为SEIR模型函数 运行后获取predict data.csv文件、relative error.csv文件以及比较图 |