[收稿日期]2020-09-19 [修回日期]2020-11-26
[基金项目]江苏省高等学校自然科学研究项目(19KJD330001);南
京医科大学科技发展基金项目(2017NJMU229);南京医科大学康达学院科研发展基金项目
(KD2018KYJJYB014)
[作者单位]南京医科大学康达学院,江苏连云港222000[作者简介]张蓓蓓(1986-),女,硕士,讲师.
[文章编号]1000⁃2200(2023)05⁃0652⁃05
㊃公共卫生㊃
张蓓蓓
[摘要]目的:探讨基于残差修正的ARIMA⁃BP 组合模型在中国戊型肝炎传染病流行趋势预测中的作用㊂方法:对2004-2017年中国戊型肝炎统计数据采用SPSS 软件分别建立ARIMA 和ARIMA⁃BP 模型,将2018年1-12月戊肝数据作为对比值,对模型的预测效果进行对比分析㊂结果:2种模型的预测结果评价指
标中,ARIMA⁃BP 组合模型的E㊁ER㊁MAE㊁MSE㊁MAPE 指标整体上均小于ARIMA 模型㊂结论:ARIMA⁃BP 组合模型的预测效果优于ARIMA 模型,可用于我国戊型肝炎发病趋势的早期预测㊂[关键词]戊型肝炎;ARIMA 乘积季节模型;BP 神经网络;组合模型;预测
[中图法分类号]R 512.6;R 183.1 [文献标志码]A DOI :10.13898/jki.issn.1000⁃2200.2023.05.023
Application of ARIMA⁃BP hybrid model
on incidence prediction of hepatitis E in China based on residual correction
ZHANG Bei⁃bei
(Kangda College ,Nanjing Medical University ,Lianyungang Jiangsu 222000,China )
[Abstract ]Objective :To explore the role of ARIMA⁃BP hybrid model based on residual correction in predicting the epidemic trend of
hepatitis E infectious diseases in China.Methods :The ARIMA and ARIMA⁃BP models were established by SPSS software based on the statistical data of hepatitis E in China from January 2004to December 2017.The data of hepatitis E in China from January 2018to December 2018were used as the comparison value to analyze the prediction effect of the model.Results :The overall index values of E,
ER,MAE,MSE and MAPE of ARIMA⁃BP hybrid model were smaller than those of ARIMA model.Conclusions :The prediction effect of ARIMA⁃BP hybrid model is better than that of ARIMA model,which can be used for the early prediction of the incidence trend of hepatitis E in China.
[Key words ]hepatitis E;multiple seasonal ARIMA model;BP neural network;combined model;prediction
戊型肝炎(戊肝)是由戊肝病毒(HEV)引起的以肝脏损伤为主的传染病,在急性病毒性肝炎中的死亡率占首位[1]㊂现有研究[2]表明,HEV 主要经粪-口途径传播,以水型流行最常见,其发病常见于水源污染的资源贫困地区,在发展中国家以流行为主,在发达国家以散发病例为主㊂据世界卫生组织统计,全球每年约有2000万人感染HEV,其中约有
330万人出现戊肝症状,2015年大约导致5.66万人死亡㊂我国是戊肝的主要流行地区之一,掌握戊肝的流行性特征和发病趋势,是采取针对性控制㊁预防
措施不可缺少的依据㊂
戊肝发病多见于雨季或洪水之后,具有明显季节性,其变化趋势一般表现为复杂的非线性特征㊂
对季节性传染病的预测一般采用求和自回归移动平均模型(autoregressive integrated moving⁃average,ARIMA),其可以整合趋势因素㊁周期因素和随机误差的综合影响[3-5]㊂BP 神经网络
是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络,具有很强的非线性映射能力和柔性的网络结构,常用于非线性函数逼近,但往往不能反映时间序列的自相关性和偏自相关性[6-8]㊂将ARIMA 模型与其他非线性预测模型相结合,采用组合模型优化预测效果,能有效提高预测效率和精度,
增强预测模型的实际应用价值,是近年来传染病疫情预测的新方向㊂本文探讨基于残差修正的ARIMA⁃BP 组合模型,通过组合模型与ARIMA 模型预测效果的对比,验证残差修正的ARIMA⁃BP 组合模型在我国戊型病毒性肝炎预测中的适用性㊂现作报道㊂
1 资料与方法
1.1 资料来源 数据资料来源于中国疾病预防控
制中心(网址:www.chinacdc )提供的
2004-2018年全国法定传染病疫情报告,其中2004-2017年的戊肝疫情数据用于建立时间序列预测模型,2018年1-12月的戊肝疫情数据作为检验模型预测效果的对比值㊂1.2 方法
1.2.1 ARIMA 模型 ARIMA 模型适用于平稳性时间序列的短期预测,对于带有季节周期性的时间序列,需引入考虑季节性的参数构成乘积季节模型ARIMA(p,d,q)(P,D,Q)s,参数p㊁q㊁d 表示自相关函数(
ACF)㊁偏自相关函数(PACF)的阶和差分的次数;P㊁Q㊁D 表示季节性自相关㊁偏自相关函数的阶和差分的次数;s 表示反映季节性的周期[8]㊂
ARIMA 建模过程分为四个阶段:(1)序列平稳
化,通过数据差分㊁变换等实现非平稳序列平稳化;(2)模型识别与定阶,根据平稳时间序列的自相关和偏自相关函数图,估计模型参数p㊁q㊁P㊁D 的值;
(3)参数估计及模型检验,检验ARIMA 模型系数显著性㊁残差的白噪声水平;结合模型拟合系数R2㊁最小信息准则等参数,确定最优模型;(4)预测,利用最优模型进行预测,评估预测效果㊂
1.2.2 BP 神经网络模型 BP 神经网络能学习和存贮大量的输入-输出模式关系,具有任意复杂的模式分类能力和优良的多维函数映射能力,由输入层㊁隐藏层和输出层组成多层前馈神经网络,其中隐含层可以有一层或多层(见图1)㊂其算法主要包含两个方面:信号的前向传播和误差的反向传播㊂前向传播过程,输入模式从输入层经隐单元层逐层处理,并转向输出层,每一层神经元的状态只影响下一层神经元的状态[9]
㊂
1.2.3 ARIMA⁃BP 组合模型 ARIMA⁃BP 组合模
型的研究中,目前主要分为输入样本替换法㊁残差修正法和组合权重法三种[10-13]㊂其中残差修正法在捕捉时间序列线性趋势方面效果更好,同时通过残差修正能更精准地对目标值进行预测,在传染病预测方面有广泛的应用㊂
将戊肝疫情的时间序列yt 看作自相关主体Lt
与非线性残差et 的结合,即yt =Lt +et,Lt 反映了时间序列的季节性及线性趋势,et 反映残差序列的非线性变化规律㊂
ARIMA⁃BP 组合模型的基本程序为:(1)根据确
定的ARIMA 模型获得时间序列的拟合样本及其残差;(2)提取ARIMA 模型拟合样本的残差作为BP 神经网络模型的输入值样本,结合时间信息建立二维输入㊁一维输出的BP 神经网络模型;(3)由ARIMA 模型对时间序列的目标值进行预测,得到预测样本Lt;由BP 神经网络模型对残差序列进行预测得到样本et,二者结合得到组合模型预测样本yt;(4)采用多种误差指标对ARIMA 模型和ARIMA⁃BP 模型的预测效果进行对比分析㊂1.3 统计学方法 采用ARIMA 乘积季节模型和BP 神经网络模型㊂
2 结果
2.1 戊肝流行特征分析 由2004-2017年我国戊肝发病数的时间序列图(见图2)可知,我国戊肝的发病人数呈现明显的非平稳性和季节性效应(s =12),每年的2~4月为发病高峰期,9~10月份呈现低谷,序列具有明显的线性趋势和非线性特征,为非平稳的时间序列
㊂
2.2 ARIMA 模型的建立
2.2.1 序列平稳化 平稳序列是ARIMA 模型分析预测的基础[14-15],根据图2原始序列的数据特征,首先对序列进行自然对数转化以减小异方差,通过
一阶差分㊁一阶季节差分(s =12)消除趋势性和季节性影响,得到处理后的时间序列图(见图3),序列在0附近呈现平稳的小幅上下波动,序列表现为基本平稳㊂
2.2.2 模型的识别和定阶 由平稳化过程可知,原始数据经过自然对数转化并一阶差分㊁一节季节差分后,其周期性和季节性基本消失,可确定模型的参
数d =1,D =1,初步确定模型的基本形式为ARIMA (p,1,q)(P,1,Q)12㊂结合平稳后序列的自相关和偏自相关检验图(见图4),初步判定p 不超过2㊁q
不超过3㊂参数P㊁Q 的取值判定较为困难,根据已有相关文献[16]研究成果,P㊁Q 取值超过2阶的情况比较少见,故取为0㊁1㊁2进行校验㊂基于此,从低阶到高阶对p㊁q㊁P㊁Q 分别取不同数值建立模型,根据最小信息准则㊁拟合效果㊁残差序列㊁参数估计有关情况综合筛选模型
㊂
2.2.3 参数估计及模型诊断 对所有模型进行计算,其中有ARIMA (1,1,0)(0,1,1)12和ARIMA (0,1,1)(0,1,1)12两个模型的所有参数通过t 检验,均满足模型要求,参数检验结果见表1㊂由BIC 最小信息准则结果可知,模型ARIMA(0,1,1)(0,1,
1)12结果为11.441,小于ARIMA(1,1,0)(0,1,1)12模型的结果11.469;由拟合优度R2结果可知,模型ARIMA(0,1,1)(0,1,1)12结果为0.803,大于ARIMA(1,1,0)(0,1,1)12模型的结果0.797㊂由此可知,模型ARIMA(0,1,1)(0,1,1)12对数据拟合效果更好㊂
合格模型的残差应为白噪声序列,模型ARIMA
(0,1,1)(0,1,1)12的Ljung⁃Box 统计量Q =
18.825㊁P =0.278大于0.05的检测水平,表明残差序列之间相互独立㊂结合ARIMA(0,1,1)(0,1,1)
12模型残差序列的自相关和偏自相关图(见图5),二者均位于2倍标准误范围内,并表现出无规律的纯随机性,由此可判定残差序列为白噪声序列,模型ARIMA(0,1,1)(0,1,1)12对原始数列信息的提取比较充分,拟合性较好
㊂
由模型ARIMA(0,1,1)(0,1,1)12的拟合曲线图(见图6)可知,拟合结果与实测值的变化规律有良好的一致性,能够较好地模拟原始时间序列的线性趋势和季节特性㊂在部分数据上,拟合值与实际值之间的残差值较大,影响模型的拟合效果和预测精度,需进一步完善
㊂
表1 ARIMA 模型参数估计检验及拟合结果统计表
变量ARIMA(1,1,0)(0,1,1)12 系数 t P
ARIMA(0,1,1)(0,1,1)12
系数 t P
AR(1)
-0.242-3.18<0.01MA(1)0.381 4.91<0.01SMA(12)
0.791
9.35
<0.010.745
8.73
<0.01C
-0.012
-2.23<0.05-0.012
-2.32<0.05
R 20.797
0.803
BIC 11.469
11.441
2.3 ARIMA⁃BP 组合模型的建立 由于ARIMA
(0,1,1)(0,1,1)12的差分过程导致部分拟合数据缺失,故提取该模型2005年2月至2017年12月拟
合数据的残差序列作为ARIMA⁃BP组合模型的样本数据[12]㊂添加时间信息作为BP神经网络模型的输入层,将全国2018年1-12月戊肝残差数据作为输出,建立二维输入一维输出的BP神经网络㊂其中BP神经网络的参数设置:隐含层节点数为10,目标误差为10-4,学习速率为0.1,最大训练周期为1000㊂根据训练后的神经网络模型对残差序列进行预测,将BP神经网络残差预测值与ARIMA模型的预测值相结合,得到组合模型的预测值,并与原始序列和ARIMA模型预测数据进行对比分析㊂2.4 模型的预测效果对比 对不同模型的预测效果进行对比研究时,多采用绝对误差㊁误差率等进行评价,本文选取以下几种误差对比指标[17]:
绝对误差:E i=y i-y∧i,i=1,2, ,n
绝对误差率:ER i=y i-y∧i
y i
,i=1,2, ,n
平均绝对误差:MAE=1n∑n i=1y i-y∧i,i=1,2, ,n 均方误差::MSE=1n∑n i=1(y i-y∧i)2,i=1,2, ,n 均方根误差::MAPE=1n∑n i=1y i-y∧i y i,i=1,2, ,n
上式中,y i㊁y∧i分别表示实际值和预测值㊂各种误差指标的计算结果越小,表示预测的精度越高,其中对于MAPE值,一般认为MAPE<10%的情况下,预测精度较高㊂结合ARIMA模型和ARIMA⁃BP模型的预测数据,在绝对误差和绝对误差率分析结果上,2018年1-11月范围内ARIMA⁃BP组合模型比ARIMA模型的误差更小㊁精度更高;在2018年4月,ARIMA⁃BP组合模型对误差的修正起到了消极的作用,但误差率也仅为3.3%,满足戊肝发病预测的精度要求(见表2)㊂在MAE㊁MSE和MAPE分析结果上,ARIMA⁃BP组合模型均较ARIMA模型表现更好(见表3)㊂ARIMA⁃BP组合模型对原始序列的预测效果优于ARIMA模型㊂
3 讨论
近年我国疾病监测信息逐步实现了多监测系统的无缝连接,能够长期㊁连续㊁系统地收集疾病的动态分布及其影响因素,目前已成为评估疾病发展趋势㊁指导疾病预防和救治的指导性资料之一,尤其是对法定传染病数据的采集和统计结果,为相应传染病的预测和控制研究提供了依据㊂而我国的戊肝发病人数呈现逐年上升的趋势,戊肝的防治工作已经逐渐成为我国的一项重要的公共安全问题㊂
表2 2种模型对2018年预测精度比较时间实际值
ARIMA模型
预测值 E ER/%
ARIMA⁃BP组合模型
预测值 E ER/% 2018年1月2762244531711.525412218.0 2018年2月2291260231113.6254425311.0 2018年3月3377344164 1.93359180.5 2018年4月2807285851 1.8290194 3.3 2018年5月263224012318.8254983 3.2 2018年6月229420951998.7221876 3.3 2018年7月2386205533113.921812058.6 2018年8月2368209127711.721871817.6 2018年9月2023194578 3.9200221 1.0 2018年10月1896181086 4.5187719 1.0 2018年11月226421001647.2218183 3.7 2018年12月2335236227 1.22356210.9
表3 2种模型的预测精度参数比较
模型MAE MSE MAPE/%
ARIMA模型178436897.39
ARIMA⁃BP组合模型10618133 4.34
对戊肝的发病趋势和具体情况进行精准预测,是合理分配公共卫生资源㊁确定防疫措施的基础㊂目前对传染病类疾病预测模型的研究,多以单预测模型为主,尤其是考虑季节性因素的ARIMA模型应用最为广泛㊂但单一ARIMA模型基于线性假定进行时间序列预测,且受自身限制和数据随机性的影响,对非线
性趋势提取效果不佳,在实际应用中往往达不到高精度预测的要求㊂单项预测模型的有效组合可以显著提高预测效果[10]㊂本研究在分析戊肝疫情发病规律的基础上,引入非线性的BP神经网络模型,与传统的乘积季节ARIMA模型相结合建立ARIMA⁃BP组合模型,通过BP神经网络模型对ARIMA模型的残差进行修正,预测取得了较为理想的效果㊂由预测结果的误差对比分析可知,ARIMA⁃BP组合模型对于戊肝疫情的整体预测精度有明显
(下转第660页)
本研究通过碱提酸沉的方法对补骨脂中的补骨脂乙素提取工艺进行优化,其方法稳定可靠㊁操作简便,重现性好,适合补骨脂乙素的大量提取㊂
[参考文献]
[1] 李敏,杨君君,杨静,等.补骨脂果皮和种子中化学成分的分
布规律研究[J].天津医药,2018,35(9):706.
[2] CHOPRA B,DHINGRA AK,DHAR KL.Psoralea corylifolia L.
(Buguchi)⁃folklore to modern evidence:review[J].Fitoterapia,
2013,90:44.
[3] 颜冬梅,高秀梅.补骨脂化学成分研究进展[J].辽宁中医药
大学学报,2012,14(9):96.
[4] ZHANG X,ZHAO W,WANG Y,et al.The chemical constituents
183组合and bioactivities of Psoralea corylifolia Linn.:a review[J].Am J
Chin Med,2016,44(1):35.
[5] 王路明,左艳萍.补骨脂酚对口腔鳞状细胞癌增殖㊁迁移和凋
亡的影响及其机制[J].山西医科大学学报,2018,49(4):
365.
[6] 郭秀芝,刘卫萍,杨杰.补骨脂的药理活性及其开发利用[J].
中医药学报,2005,33(5):56.
[7] ALAM F,KHAN GN,ASAD MHHB.Psoralea corylifolia L:
ethnobotanical,biological,and chemical aspects:a review[J].
Phytother Res,2018,32(4):597.
[8] LI Z,WANG Q,LUAN H,et al.A novel target TAX1BP1and
P38/Nrf2pathway independently involved in the anti⁃
neuroinflammatory effect of isobavachalcone[J].Free Radic Biol
Med,2020,153:132.
[9] KUETE V,NGAMENI B,TANGMOUO JG,et al.Efflux pumps
are involved in the defense of Gram⁃negative bacteria against the
natural products isobavachalcone and diospyrone[J].Antimicrob
Agents Chemother,2010,54(5):1749.
[10] SHI Y,WU WZ,HUO A,et al.Isobavachalcone inhibits the
proliferation and invasion of tongue squamous cell carcinoma cells
[J].Oncol Lett,2017,14(3):2852.
[11] KUETE V,MBAVENG AT,ZEINO M,et al.Cytotoxicity of three
naturally occurring flavonoid derived compounds(artocarpesin,
cycloartocarpesin and isobavachalcone)towards multi⁃factorial
drug⁃resistant cancer cells[J].Phytomedicine,2015,22(12):
1096.
[12] 熊文,彭四威,刘海涛,等.补骨脂不同提取工艺的比较研究
[J].天津中医药大学报,2013,32(2):98.
[13] 陈良华.中药有效成分提取技术现状[J].中国民族民间医
药,2014,23(22):14.
[14] 王琳.天然产物提取常用方法分析比较[J].辽宁化工,2017,
46(7):725.
[15] 谭佐祥,孙培松.碱提酸沉法提取水飞蓟中黄酮类物质的研
究[J].牡丹江大学学报,2017,26(10):167. [16] 赵萍,王雅,魏明广,等.葵花籽壳黑素提取鉴定及抗氧化
性研究[J].食品工业科技,2012,33(22):133.
(本文编辑 刘畅)
(上接第655页)
提升,能更好地反映时间序列的内部规律和未来趋势㊂
需要注意的是,本研究是基于残差修正的一种组合预测模型,在此基础上开展ARIMA模型和BP 模型的其他组合方式㊁引入其他非线性模型与
ARIMA模型组合,都是有待进一步研究工作的重要方向㊂
[参考文献]
[1] BALAYAN MS,ANDJAPARIDZE AG,SAVINSKAYA SS,et al.
Evidence for a virus in non⁃A,non⁃B hepatitis transmitted via the
fecaloral route[J].Intervirology,1983,20(1):23. [2] 周力,刘宇琼,王亮,等.戊肝流行病学特征及慢性化研究现
状[J].中国卫生工程学,2013,12(4):345.
[3] BOWERMAN BL,O′CONNELL RT.Forecasting and time series:
an applied approach[M].3版.北京:机械工业出版社,2003:
437.
[4] BOX GEP,JENKINS GM.Time series analysis:forecasting and
control[M].San Francisco:Holden⁃Day,1976.
[5] 于林凤,吴静,周锁兰,等.ARIMA季节模型在我国丙肝发病
预测中的应用[J].郑州大学学报(医学版),2014,49(3):
344.
[6] 蒋宗礼.人工神经网络导论[M].北京:高等教育出版社,
2008:36.[7] 王超,丁勇,陆,等.ARIMA乘积季节模型在我国甲肝发病
预测中的应用[J].南京医科大学学报(自然科学版),2014,
31(1):75.
[8] CAVALLARO F.Electric load analysis using an artificial neural
network[J].Int J Energy Res,2005,29(5):377. [9] 温正,孙华克.MATLAB智能算法[M].北京:清华大学出版
社,2017.
[10] 梁德阳.基于SARIMA和BP神经网络的时间序列组合预测
模型研究[D].兰州:兰州大学,2014.
[11] 杨召,叶中辉,赵磊,等.ARIMA⁃BPNN组合预测模型在流感
发病率预测中的应用[J].中国卫生统计,2014,31(1):16. [12] 熊志斌.ARIMA融合神经网络的人民币汇率预测模型研究
[J].数量经济技术经济研究,2011,2(6):64. [13] 马爱霞,谢静,唐文熙.ARIMA模型㊁BP神经网络及其组合模
型在卫生政策评估中的实证比较:以公立医院价格改革为例
[J].中国卫生政策研究,2018,11(1):76.
[14] KALMAN RE.A new approach to linear filtering and prediction
problems[J].J basic Engrg,1960(82):35.
[15] KALMAN RE,BUCY RS.New results in linear filtering and
prediction problems[J].J basic Engrg,1961(83):95. [16] 方积乾,陆盈.现代医学统计学[M].北京:人民
卫生出版社,
2002:219.
[17] 戴钰.最优组合预测模型的构建及其应用研究[J].经济数
学,2011,27(1):926.
(本文编辑 卢玉清)
发布评论