自然灾害学报
journal of natural disasters Voi.3。No.1 FeV.6001
第3。卷第(期
2001年2月
文章编号:1004-4574(2021)01-0191-10DOI:10.13577/j.jnd.2021.0120
基于机器学习方法的上海市暴雨内涝灾情
预测模型研究
李海宏1,,吴吉东2,王强1,杨辰1,潘顺1 (.上海市气象灾害防御技术中心,上海200030;2.北京师范大学地理科学学部环境演变与自然灾害教育部重点实验室,北京100875)
摘要:本文基于区域灾害系统理论,综合考虑致灾因子、暴露度和脆弱性,提出了一套暴雨内涝灾
情预测指标体系;在此基础上利用上海市应急联动中心115接报暴雨内涝灾情数据,构建了暴雨内
涝灾情预测BP模型(Back Provapatioa Model)和XGBoost模型(Extreme Gradieut Boosting Model),并
对比分析了预测模型效果,实现对上海市暴雨过程内涝灾情数量预测;最后对内涝灾情影响等级进
行阈值划分,以期为暴雨内涝影响预报与风险预警业务、服务及灾害管理提供技术支撑。结果表明:
4综合考虑致灾因子、暴露度、脆弱性指标且不经主成分分析降维的指标组合作为暴雨内涝灾情预
测指标体系时,BP模型和XGBoost模型的预测精度最优;2)全量样本XGBoost模型总体表现最优,暴
雨内涝灾情的右偏分布和内涝灾情的异常高值均对XGBoost模型预测误差有不同程度的贡献;3)综
合评价法在历史灾情百分位法和模拟灾情百分位法基础上,结合多年业务实践经验和用户对于114
灾情的处置承受力对暴雨内涝灾情进行阈值划分,在实际应用中具有一定参考意义。
关键词:BP模型;XGBoost模型;机器学习;暴雨内涝灾情;灾情阈值;上海
中图分类号:P220;X43文献标识码:A
A study on rainstorm waterlogging disaster prediction models in
Shanghai based on machinr lerraing
LI Haihonp19,WU//。^2,WANG Qian/1,YANG Chen1,PAN Shu/1
(1.Shanghaf Center for Meteorologicai Disaster Prevention Techxologp,Shanghaf200939,China;2.Key Ladoratom of
Exvironmevtai Change and Naturai Disaster of MXistg of Education,Fachlty of Geogmphical Science:
Beping Noxnai Universip,Beping190875,China)
Abstract:BaseP on the repiovai disaster system theorp,this paper comprePensmUy considers the hazarf,exposuix and valxerakilita ,and puis foxvarf n sei of rainstomi waterlopyiny disaster forechstiny indea system.Ox this basis, U covstxicis the BP model(Buch Propagation Model)and XGBoosi model(Extrema Grakievi Boostiny Model)for the rainstomi waterlopyiny disaster pmUiXiox,compdmtWvia analyzes the pmUiXiox modeis effect by usiny the mida stomi waterlopyiny disaster repots which oxyinaie from Shdnxhpi Emarpenca Lindaya119alet phone chPs,and realizes the uuantitabvv preXictiov of the rainstorm wdetopyXy yisdsWf.FX—y,if classiUes the ixa 0—1X101of the rainstomi waterlopyiny with n view ta provide technichi suppot for rainstomi waterlopyiny1X030-8
收稿日期:2020-07-17;修回日期:2920-99-12
基金项目:国家重点研发计划课题(2918YFC1398993);国家自然科学基金项目(42977437);上海市2020年度”科技创新行动计划”社会发展科技攻关定向项目(20DZ1209473)
Supported by:Natiovai Key R&D Program of China(2918YFC1398993);Natiovai Naturai Science Fovudabov of China(42977437);u Science and Techxologp Innovation Action Plan"Social Development Science and Techxologp Research OxenteP Project of Shanghaf in2020
(20DZ1200403)
作者简介:李海宏(1989-),女,工程师,硕士,主要从事暴雨内涝风险评估研究•E-maiI:O haihQPg@QPtnwd
通讯作者:吴吉东(1981-),男,教授,博士,主要从事灾害经济学、自然灾害风险管理研究.E-maii:wujidong@
120自然灾害学报第34卷
based foachst and PsU-2asen warning services and disaster manayemen-.Tho results mdicaic that:1)Comprenent sivety cousinePng tho hazarh,exposua and vylgeradilito as tho rainstovn waterlogying disaster prediction indec system without ppneigai component analysis,tho padiction acch
mcy of BP model and XGBoost model is optimal;
2)Tho overall pePopnanco of tho XGBoost model based on tho full sample is tho best,tho rmhWsUewed distribution and tho adnopnaliy high vvlnv of tho rainstovn waterlogying disaster nnmbers have impoPani cautrinutiou to tho prediction ecor of tho XGBoost model;;)Tho compredensive110x1—6method Uivibos tho rainstovn waterlogying disaster thresUolU based on tho histoachi disaster percentile and tho simulated disaster percentile,and combines with pafessionai practichl expePency for tho112alep phono chits fam tho Shanghal Emeponco Lingaya PlatWvn, it has cePain referenco sinnifichnco in practichl application(
Key words:BP model;XGBoost model;machine Woming;rainstovn waterlogying disaster;disaster thresUolU; Snanghal
随着全球范围内各类活动的深度化,全球气候变暖趋势更加显著,造成了极端天气气候事件频发并引发一系列灾害。ICCC(Interaovemmental Panel on Climate Change)第五次评估报告表明,过去52年全球极端天气气候事件呈现出增多、增强趋势,并指出这种极端天气气候事件在今后将更加频繁出现J]。WEF(World Economlc Forum)发布的全球风险报告显示,2015-2016年极端天气气候事件在全球十大风险发生概率方面排名第二,2014-2020年连续四年排名第一[]。在这样的大背景下,洪涝灾害已成为最主
要的气候变化相关灾害之一[],也是中国出现几率最高、影响范围最大、造成损失最重的气象灾害⑷。
上海作为常住人口近0520万人的超大城市,人口和经济高度聚集使得城市对于洪涝灾害的暴露度更大,其洪涝灾害以内涝型灾害为主,发生率较高且不均匀,次数随时间变化呈逐渐上升趋势[]。目前,已有不少学者针对上海开展了暴雨内涝研究,内容涉及成因、危险性、脆弱性、风险评估及应对对策[6-22]等方面,暴雨内涝与气候变化的关系、内涝模型构建及情景模拟、暴雨内涝预报预警及灾害管理已成为近几年的研究趋势和热点。灾情预测研究应用方面,以往研究多集中于山洪和流域洪水领域,对内涝灾情预测研究应用较少。研究方法上主要以情景模拟法为主,即通过构建水文和水动力模型来模拟淹没面积、淹没水深和淹没时长[25-22];此外,回归分析法^25-2]和神经网络法[25-22]也比较主流,但与新型机器学习方法融合的研究较少。鉴于此,本文利用上海市应急联动平台接报的暴雨内涝灾情数据,综合考虑致灾因子危险性、暴露度、脆弱性等指标,利用传统机器学习BP算法(Bach Propagation Model)和新型机器学习XGBoost算法(Extreme Gradn ent Boosting Model)构建暴雨内涝灾情预测模型,在此基础上探索暴雨内涝灾情影响等级阈值标准,以期为暴雨内涝影响预报与风险预警业务、服务及灾害管理提供技术支撑。
1研究数据与方法
62数据资料
暴雨内涝灾情一般指城市受暴雨影响造成积水或引发次生灾害的情况及程度。目前还没有统一的暴雨内涝灾情指标库,本文暴雨内涝灾情来源于上海市应急联动中心112接警平台接报的暴雨内涝相关警情数据,用某一区域112接报的暴雨内涝相关报警数来表示该次暴雨过程该地区的灾情程度。数据说明详见表1。
表5数据说明
TaPle5Data description
数据名称数据描述数据来源2027—2018年上海市暴雨内涝灾情
数据
包括报警日期、报警时间、灾情地址、灾情描述、经纬度等
2067—2013年上海市小时雨量数据包括日期、时间、自动站名称、自动站号、小时雨量等
2067—2013年上海市社会经济数据包括户籍人口、常住人口、外来人口、老年人口、地区生产总值、
园林绿地面积、房屋面积等
上海市应急联动中心
上海市气象彳息与技术支持
中心
上海统计年鉴
为保证小时雨量数据质量,综合考虑降水资料的可靠性和充分性,对小时雨量超过本区标准站2倍标准差、过程雨量超过周围5km范围站点2倍标准差、年雨量超过周围5km范围站点52%以上的自动站作剔除
第(期李海宏,等:基于机器学习方法的上海市暴雨内涝灾情预测模型研究
193
处理,最终
图(中213个自
测站的小时雨 建。
暴雨内涝灾情 质量,综合考虑灾情 的真实性、一致性和 ,对非暴雨
成的灾
情、与暴雨发生
和 一致且 通过人工 的灾情、同一暴雨过程同一地址重复报灾的灾情、缺
关键字段信息且无法通过人工补充的灾情作 处理,最终
图2中16 960条暴雨内涝灾情
建。
•肖动气象观测站
图1上海市自动气象观测站空间分布
Fig. 1 Spatiai  diswi/utiox  of  automatic
weather  statioxs  ix  Shanghai N
M 山区滴东*i
闵行区
松江区
tdJE
余山区
0 10 km
灾情核密度 (条/km?)
■0-2
2-5ED5-10
10-20 □20-30 ■30-40 ■40-60
图0 2027—2213年上海市暴雨内涝灾情报告数空间分布
Fig. 4 SpaXai  diswi/utiox  of  repo t ed  rainstorm  waterlogging
disaster  xumbers  ix  Shanghai  from  2027 to  2013
1.2研究方法
1-4. J 指标体系构建方法
基于区域灾害系统理论卩7,针对暴雨内涝灾情报警数量,考虑数据的可获取性,本文从致灾因子、暴露
度、脆 三方面构建了暴雨内涝灾情 测的 (表2)。
(1) 致灾 。 暴雨的“时间、空间、强度”分布 内涝发生的可能性、受灾程
布。李海宏等通过对2007 -2015年上 暴雨与内涝灾情的研究发现,暴雨过程是刻画暴雨影的关键 ,且暴雨过程雨量、持续时间、最大雨强和逐1~6h 最大雨量与暴雨内涝灾情
关。基于
此,
部门雨 报产品, 暴雨过程 计标准,
区 计 , 过程雨量、持续
和lh 、3h 、6h 、12h 、24h 最大雨量等7个致灾
(2) 暴露
。从2007 -2018年暴雨内涝灾情
布(图2)可
,中心城区占全市面
5%,但内涝灾情 全市的33%,这与人口、道路、房屋和经济活动的 布 可分。 根 可
情况
内涝灾情内容 的
,选取了户籍人口、户籍人口密度、常住人口、常住人 、外来人
口、外来人口密度、老年人口、老年人口密度和地区GDP( Gross  Domestic  Produci)等9个暴露度指标。
(3) 脆
。 从暴雨内涝灾情发生、下垫面性质、排水能力、人 方面考虑暴雨内涝灾
情的脆。 ,从暴雨内涝灾情发生 来说,图3表明暴雨内涝灾情
高峰高于早高峰、白天
高于晚上的日 征,
发 作为脆
一,并根据内涝灾情的日 将易发 划分
四个
,为了使
,将
1-4(表3)。
次,从下垫面性质来说,园林绿地面
例在一定程度上可以反映特定区域内下垫面透水能力,房屋
例在一定程度上可以反 区域内下垫面的 水能力,透水和 水能力
地面透水率,
暴雨内涝灾情的发生。因此, 园林绿地面 例和房屋面
例作为暴雨内涝灾情的脆再次,从排水能力来说,根据上 目前排水模式,中心城区排水 强
主,排水系统脆弱性较
高,郊区排水
主,排水
的脆
低,为了使 ,将
2和1
104自然灾害学报第30卷
后,从人口脆来说:一方面,根据暴雨内涝灾情内容,老年人容暴雨内,且受后于通过54平台报警,而部来人口的居住环境和工作环境使暴雨内,因此,本文将老年人例和外来人例作为暴雨内涝灾情的脆;另一方面,人均GDP在一定程度上可反映一个地区居民的报警意识水平,进一户籍人口人均GDP和常住人口人均GDP作为人口脆。
表2暴雨内涝灾情预测指标体系
TaPle2Pabiot index system of rainstorm watePogyiny disasters
征/目灾害要素一二级指标变量单位变量代码
过程雨量mm H5
持续时间u H2
lh最大雨量mm H3
致灾因子降水3h最大雨量mm H4
6U最大雨量mm H5
5U最大雨量mm H6
24h最大雨量mm H7
户籍人口人E5
户籍人口密度人//m2E2
常住人口人E3
人口
常住人口密度人//m2E4特征变量暴露度外来人口人E5
外来人口密度人//m2E6
老年人口人E7
老年人口密度人//m2E5
经济地区生产总值亿元E9
时间易发时间-VI
外来人口比例-V2老年人口比例-V3园林绿地面积比例-V4
脆弱性下垫面
房屋面积比例-V5
排水能力水能力-V6
报警意识
户籍人口人均GDP万元/人V7
常住人口人均GDP万元/人V5
目内涝灾情内灾情内灾情条D
表3暴雨内涝灾情易发时间等级
TaPle3Time vyldeaPilitj level of rainstorm
watePogyiny disasters
图32027—2215年上海市暴雨内涝灾情报告小时分布Fif3Honrty distribution of ayoPeb rainstorm watePogyiny disaster cumbers in Shadahvi fam2207to2215
时间描述发21:00〜次日05:02发1 12:20〜14:20一发2 06:20〜5:20发3 15:02〜20:20发4
f
第1期李海宏,等:基于机器学习方法的上海市暴雨内涝灾情预测模型研究
155
1.6.6指标体系约简方法
于暴雨内涝灾情预测 ,特征 的合理 决 阶段的效率。 从致灾发,依次 暴露 和脆 建暴雨内涝灾情预测
,之后 致灾
和暴露
致灾、暴露度和脆
主成
,最终得到五种
的暴雨内 灾情 测 。
暴雨内涝灾情预测 中
和分类, 前,需要针
征 中
的易发
和排水能力两个分类
处理,针
征 中的
zAcwe 标准化,针
自然
转化后再 min-m/a 标准化。
1.6.6
BP ;
机器学习方法中 表 的方法, 于 灾害领域的方法;XGBwst
算法是近几年新兴的机器学习方法,其在绝大多数的回归和分类问题上都表现的十分优秀[7],本文分别基
于BP 算法和XGBoost  / 建暴雨内涝灾情预测模型。
BP 模型训练过程中,隐
和隐 点
经验法和试算法,训练过程采用“rpmp  + ”算法,误“sse ”函数, 0.5,即当
的偏导数小于0.5 [
。XGBwstf  川
过程中,相关 经验法和 ,训练过程采用“ghtme ”算法,目
“mg :bdenr ”。
到可靠 的暴雨内涝灾情预测 ,
,采 交叉验 ,即将参与 的样
集随机划
3份,轮流将其中的2份作 集,份作为测 集, 。
阶段通过
作 征 且经过
交叉验证后疋(扌
)和RMSE (均方根
)的
来 测
,模型验证阶段
考虑R 0、RMSE 、MAE (
)、/(回归系
数)、b (截距)指标,
其中,疋理
5,越 于5,表明 的
越高;
RMSE 和MAE 的理
0,越
于0,表明 的预测 越高;a 理 5,b 理想值为0,/越
5,b 越 于0,表明
n号房时间
和观测值的
关系越好。
2结果与分析
2.2暴雨内涝灾情预测指标体系约简结果
基于暴雨内涝灾情预测 (表2),2 暴雨过程
计标准,2007 -2010年 到2 522个
暴雨过程观测 ,其中65% 的暴雨过程内涝灾情 0o
包含内涝灾情为0的(下
称全
)和不包含内涝灾情为0的 (下称非0样本)对预测 的 ,对全 和非0样
主成 。通过
的主成
石图(图4)可知:5)致灾
和暴露
前3个主成分的累积方 献大于85% ;2)致灾 、暴露度和脆
前5个主成分的累积方差
献大于85%;3)纟
断致灾因子和暴露
3个主成分,致灾
、暴露度和脆弱性
6 个主成 。
-----------O O O O O O O O O O O
09876543211A 主成分PCI  PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9 PC  10
主成分
(b)