en
×

分享给微信好友或者朋友圈

使用微信“扫一扫”功能。
通讯作者:

李巧萍,E-mail:liqp@cma.gov.cn

引用:黄超,李巧萍,谢益军,等,2022.机器学习方法在湖南夏季降水预测中的应用[J].大气科学学报,45(2):191-202.

Quote:Huang C,Li Q P,Xie Y J,et al.,2022.Prediction of summer precipitation in Hunan based on machine learning[J].Trans Atmos Sci,45(2):191-202.

目录contents

    摘要

    利用湖南97个国家站的逐月降水资料、国家气候中心130项气候指数集以及国家气候中心和美国国家环境预报中心两套季节预测模式的降水预测资料,采用递归特征消除法确定预测因子并使用多层前馈神经网络、支持向量回归和自然梯度提升三种算法建立了两种湖南夏季降水统计预测方案的模型,检验了预测效果。结果表明:基于机器学习的预测模型对湖南夏季雨型分布有较好的预测能力,两种统计方案提前1~6 mon起报的夏季降水平均距平相关系数分别为0.15和0.19,相比于NCEP和NCC模式有较大提升,平均PS评分分别为69.3和69.2,高于NCC模式的63.1,略低于NCEP模式的71.5;进一步分析表明,3—5月起报的机器学习模型的预测技巧可能来源于前冬极地和中高纬环流,12—2月起报的模型预测技巧则可能来自海温的前兆信号。

    Abstract

    Against the background of global warming,summer extreme precipitation in Hunan has increased significantly.Therefore,improving the prediction accuracy of precipitation is of great practical significance for disaster prevention and mitigation in Hunan Province.Using the monthly precipitation data from meteorological stations in Hunan,the climate index sets from the National Climate Center (NCC) and the precipitation data from the hindcast experiments are performed using seasonal prediction models of NCC and NCEP (National Centers for Environmental Prediction).The recursive feature elimination (RFE) method is used to determine the key factors,and two statistical prediction schemes of summer precipitation in Hunan are established by three algorithms:multilayer feedforward neural network (FNN),support vector regression (SVR) and natural gradient boosting (NGBoost).The results show that the prediction model based on machine learning (ML) has superior ability to predict the distribution pattern of summer precipitation in Hunan.The respective average ACC skills of the two statistical schemes with lead times of 1 to 6 months are 0.15 and 0.19,which is a great improvement compared with the dynamic model.The respective average PS scores are 69.3 and 69.2,which are higher than the NCC model.The further analysis indicates that the preceding winter polar and mid-and high-latitude latitude circulation may be the main predictability sources of ML models with lead times of 1 to 3 months.Finally,the prediction skills of models with lead times of 4 to 6 months are likely derived from the precursory signal of sea surface temperature.

    关键词

    机器学习夏季降水预测

  • 湖南地形具有三面环山、南高北低的特点,气候复杂多变,夏季旱涝转换(李易芝等,2017),易出现洪涝、干旱等气象灾害。在全球变暖背景下,湖南夏季极端降水明显增加(周莉等,2018),因此进一步提升夏季降水预测水平对湖南防灾减灾具有重要现实意义。

  • 目前降水季节趋势预报主要分为统计学、动力学和动力统计相结合三类方法。统计方法充分利用历史资料规律,选取有明确物理意义和显著相关的因子进行建模。范可等(2007)通过前期因子建立统计模型对长江中下游夏季降水年际增量进行预测,显著提高了业务预测技巧。杜良敏等(2016)针对不同气候分区建立统计模型对我国夏季降水进行预测。李春晖等(2018)采用时空投影方法建立广东省降水统计预测方法。Yim et al.(2014)使用统计模型对中国南方夏季降水进行预测。但由于各预测因子相互作用过程复杂,不同时间尺度的预测信号不一致,加大了预测的难度。随着数值模式的发展,动力模式成为气候预测的主要工具,许多国家建立了数值预报模式(丁一汇,2011)。近年来,我国季节预测模式对大气环流、ENSO(El Niño-Southern Oscillation)现象、亚洲夏季风等的预测能力已有明显提升(吴捷等,2017),但对降水预测技巧依然有限,特别是对东亚地区夏季降水的预报技巧相对较低(王予等,2021)。在这样的现实情况下,专家学者在此基础上发展了动力和统计相结合的预测方法(封国林等,2013),充分利用历史资料并考虑大气海洋物理机制,进一步提高了降水预测准确率。柯宗建等(2009)提出了最优子集回归方法。贾小龙等(2010)发展了变形典型相关分析(Combination of Empirical Orthogonal Function and Canonical Correlation Analysis,BP-CCA)方法。舒建川等(2019)在此基础上使用BP-CCA方法在西南地区进行了应用。组合统计降尺度方法(Liu and Fan,2014;刘颖等,2020)也能够提升一定的降水预测技巧。此外,国家气候中心多模式解释应用集成预测系统(Multi-model Downscaling Ensemble Prediction System,MODES)(刘长征等,2013)和动力-统计相结合的季节预测系统(Forecast System on Dynamic-Analogue Combined Skills,FODAS)(王启光等,2011)的研发对我国夏季降水预测业务水平提升起到了关键作用。

  • 机器学习强调从历史数据中学习规则,对新数据进行推理和预测。区别于传统统计方法,机器学习擅长处理非线性问题,利用机器学习的优势可以从地球系统中发现并提取新的相互关联信号(贺圣平等,2021)。近年来,机器学习在气象领域的应用越来越广泛,常用的机器学习算法有支持向量机、贝叶斯算法、神经网络、决策树算法等(冯汉中和陈永义,2004;孙照渤等,2013;张宇彤等,2013;苗春生等,2017)。随着计算能力的提高和深度学习理论的发展,以卷积神经网络(Convolutional Neural Networks,CNN)和长短期时间记忆网络(Long Short-Term Memory,LSTM)为代表的深度学习方法在气候领域得到应用,例如CNN算法对ENSO指数的预测技巧超过了主流动力模式(Ham et al.,2019),沈皓俊等(2020)采用的LSTM算法对中国夏季降水预测评分超过了同期业务模式。

  • 湖南夏季降水时空分布不均,影响因子复杂,当前对其机理和预测的研究还存在短板,动力模式预测水平与业务服务需求存在差距,有必要利用机器学习的优势进一步提高当地预测水平。考虑到湖南降水观测资料年份较少,不适合深度学习方法,因此本文采用随机森林算法进行递归特征消除来挑选预测因子,使用多层前馈神经网络、支持向量回归和自然梯度提升方法建模,结合动力模式降水预测结果,建立适用于湖南本地的夏季降水统计预测方法。

  • 1 资料和方法

  • 1.1 数据来源和预处理

  • 预报因子资料来源于国家气候中心提供的气候系统监测指数集(下载地址:http://cmdp.ncc-cma.net/Monitoring/cn_index_130.php),共包含130项气候系统指数的月平均值。其中大气环流指数88项,主要包括副高、东亚槽、极涡、欧亚环流型、遥相关、太平洋信风等大气环流指数。海温指数26项,主要包括厄尔尼诺(各区及类型)、暖池、印度洋、亲潮区、黑潮区等海温指数。其他指数16项,主要包括冷空气、台风、南方涛动、北太平洋年代际振荡、准两年振荡、次表层海温等指数。时间尺度为1980年1月—2020年12月,若出现缺测,直接将该因子剔除。

  • 美国国家环境预报中心(National Centers for Environmental Prediction,NCEP)和国家气候中心(National Climate Center,NCC)气候预测模式数据来自MODES系统,空间分辨率均为1°×1°,NCEP模式历史回算时间范围为1982—2020年(其中2011年资料缺失),模式气候态取1982—2010年,NCC模式历史回算时间范围为1991—2020年,气候态取1991—2010年。分别计算模式不同起报时间的夏季(6—8月)降水距平百分率,并采用双线性插值将网格数据插值到站点上。实况夏季降水资料来自湖南省97个国家站1981—2020年的观测数据,夏季降水没有明显的线性趋势,因此未做去趋势处理,直接处理成降水距平百分率进行分析。

  • 样本集共包含1981—2020年共40a、6个起报时间、10个模态共计2 400个样本(40×6×10);根据起报时间和模态划分为60个子样本集,每个子样本集40个样本;训练集时间段为1981—2010年,测试集为2011—2020年。建模时挑选对应起报时间和模态的样本集,其中训练集30个样本进行训练和交叉验证,测试集10个样本进行独立检验。

  • 1.2 评估方法

  • 对湖南夏季降水评价指标采用趋势异常综合评分P S(PS)和空间距平相关系数A CC(Anomaly Correlatiom Coefficent,ACC)。PS评分的计算公式为:

  • PS=N0+P1×N1+P2×N2N+P1×N1+P2×N2×100

  • 其中:N为总站数,本研究中取97;P1=0.5,P2=1.0;N0为预报与实况距平符号相同站数或符号不同但相差只有1级站数之和;N1为预报与实况同为2级5级的站数,N2为预报与实况同为1级、6级的站数。

  • 表1 降水趋势预报分级标准

  • Table1 Grading standards for precipitation anomaly

  • ACC的计算公式为:

  • ACC=i=1n yi-y-oi-o-i=1n yi-y-2i=1n oi-o-2.

  • 其中:n为站点数,yioi分别表示预测值和观测值; y-o-分别表示预测值和观测值的平均值。

  • 1.3 建模方法

  • 为了减少建模过程中机器学习算法的随机性影响,本文采用多层前馈神经网络、支持向量机和决策树集成三种不同的机器学习方法进行建模,这三种算法均属于机器学习中的分类和回归方法,对数据的识别和拟合过程具有一定差异。

  • 1)多层前馈神经网络

  • 本文使用的神经网络算法为多层前馈神经网络,其一般包含输入层、隐含层和输出层(韩力群,2006;LeCun et al.,2015)。隐含层越多,模型数据表示能力越强,更易造成过拟合,因此本文仅采用两层隐含层,神经元个数也不超过预报因子个数。模型的表达式为:

  • Pk=g2j=1m wkjg1i=1n wjixi+wj0+wk0

  • 其中:xi为节点i的输入值;Pk为节点k的输出值;g1为隐含层激活函数;g2为输出层激活函数;mn分别为输入层和输出层神经元个数;wj 0为隐含层第j个神经元的偏差;wk 0为输出层第k个神经元的偏差;wkj为输出节点k与隐含节点j的权重;wji为输入节点i与隐含节点j的权重。

  • 2)支持向量回归

  • 支持向量回归是支持向量机的拓展,算法通过核函数在高维或有限维空间中构造一个或一组超平面使数据与其距离最小(陈永义等,2004),在处理小样本、高维和非线性问题上具有优势。本文选用高斯核函数,因此表达式为:

  • f(x)=i=1L ai-ai*Kx,xi+bKx,xi=e-x-x22σ2

  • 其中:L为支持向量的个数;aiai*b为通过训练样本确定的最优超平面参数;xi为预报因子;σ为控制高斯核参数宽度的参数。

  • 3)决策树集成

  • 决策树是机器学习中的分类回归算法,对于回归问题,算法目标是尽量使划分同一类别的平方误差最小,但也易造成过拟合,可通过决策树集成方法克服。本文使用的随机森林和自然梯度提升树均属于决策树集成算法。随机森林回归算法通过对训练集重复随机采样进行决策树建模,取多个决策树平均值作为预测结果(Breiman,2001);而自然梯度提升树算法通过梯度提升方法进行预测,不断对预测残差进行建模并集成多个决策树,从而达到减少预测误差的目(Peng et al.,2020)。

  • 4)递归特征消除法

  • 递归特征消除法是机器学习中常用的特征处理方法,起到挑选重要因子的作用。该方法通过反复构建模型剔除重要程度最低的因子,并遍历所有因子达到确定因子重要程度的目的。本文采用的重要性衡量方法为基尼重要性,在随机森林内部节点中通过反复将数据集分为两个独立的集合,计算每次分类后的集合内部方差,依据分类前后集合的方差差值确定气候因子的重要性,方差差值越大表示因子重要性越高。

  • 2 机器学习在降水预测中的应用

  • 2.1 湖南夏季降水预报方案

  • 将机器学习方法应用预测因子筛选及湖南夏季降水预测建模中,图1给出了降水预测的主要流程:

  • 1)资料处理:分为三部分,第一部分获取前期因子集,将起报时间前3mon的130项气候系统指数作为前期因子集,例如5月起报的模型使用的是2、3、4月的气候因子。第二部分是降水数据,对1981—2010年湖南夏季观测降水的距平百分率采用经验正交函数分析方法(EOF)进行分解,时间系数为预测目标。第三部分是模式预报降水场,使用观测降水场EOF分解后的空间系数对模式降水场进行投影,得到模式预报的时间系数。

  • 2)筛选关键因子组合:基于机器学习的递归特征消除思想,采用随机森林算法获取重要的气候因子,再通过交叉验证选取合适的关键因子组合。

  • 3)建模:分为两个方案,方案一直接使用筛选的关键因子组合与EOF时间系数进行建模;方案二将NCEP模式预报的降水场时间系数与方案一中的因子共同作为预报因子进行建模。

  • 4)输出预报结果:利用模型预报的时间系数和观测降水EOF分解的空间系数还原成预报降水场,对不同机器学习模型的预报结果进行等权集合平均作为最终的预报结果。

  • 2.2 确定预测因子及EOF模态个数

  • 使用随机森林算法进行递归特征消除来筛选预测因子,随机森林算法通过计算预测因子的基尼重要性对其进行排序,从而剔除不重要的预测因子,达到降维的目的。将所有候选气候因子与前10个EOF模态时间系数分别进行递归特征消除(决策树数量参数设置为100,持续增大后误差并无显著减少),采用五折交叉验证进行误差分析。图2给出了5月起报的前10个模态通过递归特征消除法剔除因子后均方根误差,当因子数达到某一阈值,误差趋于平稳。在因子重要性排序之后,选取该阈值之前的关键性因子即能在降低模型误差的同时达到降维的目的,依据此方法便得到提前1~6mon起报和不同模态的预测因子(表2)。

  • 图1 利用机器学习方法建立夏季湖南降水预测模型流程图

  • Fig.1 Flowchart for building the prediction model with the machine learning method

  • 采用交叉验证方法分析不同EOF模态个数对预测结果的影响。图3给出了利用1981—2010年湖南夏季降水数据分别截取前1~20个不同EOF模态进行五折交叉验证的结果,ACC和PS评分均为提前1~6mon起报的平均值。从图中可以看出,EOF模态个数超过6个,PS和ACC变化趋于平稳,当EOF个数取8和10时,ACC和PS分别达到最大值。结合图3中所示的不同EOF模态的累计方差贡献率以及还原后降水场与观测场的相关系数来看,EOF模态个数越多,越能反映降水的时空变化,因此这里将EOF模态个数定为10,此时累计方差贡献率为89.1%,ACC和TCC分别达到0.86和0.94,能够反映降水的时空分布特征。

  • 2.3 参数设置及模型建立

  • 表3中给出了多层前馈神经网络、支持向量机回归、自然梯度提升树三种算法的参数范围,为避免过拟合,参数设置尽量简单,降低模型复杂度,所有数据进行标准化处理。神经网络层数为2层,节点数取20~50,激活函数使用Relu;支持向量机使用高斯核;自然梯度提升树的决策树数量在20~500间取值。建模时取训练集对参数取值范围内的不同参数组合分别建模。例如对5月起报的EOF第一模态时间系数使用多层前馈神经网络建模时,隐含层数量为2,对应隐含层节点数分别为{50,50}、{40,40}、{30,30}、{20,20}共4组,正则化参数分别为0.000 1、0.001、0.01、0.1、1共5个,不同参数组合共计20个;然后采用五折交叉验证方法计算得到20个模型的平均均方根误差,其中隐含层节点数为{40,40}、正则化参数为0.01的模型误差最小,作为最终预测模型;重复该步骤即得到2种方案3种算法10个模态提前1~6mon起报的共计360个预测模型。

  • 图2 机器学习算法挑选的5月起报的前10个(a—j)EOF模态的因子数量对应的均方根误差

  • Fig.2 RMSE corresponding to the number of factors of (a—j)different EOF patterns selected by the machine learning method initialized in May

  • 表2 不同模态提前1~6mon起报的机器学习算法选取的因子个数

  • Table2 Numbers of factors selected by the machine learning method with the first 10EOF modes at different lead times(months)

  • 图3 不同EOF模态个数交叉验证评分及与观测降水的相关系数:(a)分别取前1~20个EOF模态的交叉验证ACC和PS评分;(b)取前1~10个EOF模态的累计方差贡献率及其还原的降水与观测降水之间的距平相关系数(ACC)和时间相关系数(TCC)

  • Fig.3 Cross-validation scores of different EOF modes and correlation coefficients with observed precipitation:(a) ACC and PS scores of the first 1to 20EOF modes;(b) cumulative variance contribution rate of the first 1to 10EOF modes,and the anomaly correlation coefficient and temporal correlation coefficient between the restored and observed precipitation

  • 对比三种算法不同起报时间的平均均方根误差(图4a),提前1、3、4mon起报的模型中支持向量回归误差最小,提前2、5、6mon起报的模型中,自然梯度提升树误差最小;通过不同模态的平均均方根误差来看(图4b),预测误差主要位于前两个模态。

  • 表3 模型参数设置

  • Table3 Model parameters

  • 图4 三种算法不同起报时间(a)和两种预测方案前10个模态(b)的均方根误差

  • Fig.4 RMSE of (a) three algorithms with lead times of 1—6mon and (b) first 10EOF modes of two prediction schemes

  • 3 模型的预报技巧评估

  • 采用基于上述机器学习方法建立的湖南夏季降水预报模型,两种统计方案分别使用2011—2020年和2012—2020年数据进行独立样本检验,得到对应年份97个国家站夏季降水距平百分率数据并评估预报技巧。图5分别给出气候模式本身及两种方案的统计模型提前1~6mon起报的降水距平空间相关系数(ACC)和PS评分。整体来看,方案一提前1~6mon起报的ACC分别为0.25、0.15、0.09、0.23、0.15、0.05,平均为0.15;方案二提前1~6mon起报的ACC分别为0.25、0.23、0.19、0.26、0.24、-0.01,平均为0.19;NCEP和NCC模式预报的平均ACC分别为0.08和0.02,统计方案有明显提高;两种方案提前1~6mon起报的平均PS评分分别为69.3和69.2,相比NCEP模式的71.5略低,但优于NCC模式的63.1。从不同起报时间来看,2月起报(Lead-4)的ACC最高,4月起报(Lead-2)的PS评分最高。与动力模式结果相比,机器学习模型的平均ACC比NCEP、NCC模式高,这种优势在提前3~6mon起报的模型上更加明显,两套动力模式在提前3mon以上预报夏季降水几乎没有技巧,但在PS评分上,NCEP模式则更具优势。上述结果说明两种基于机器学习的预测方法在降水空间分布的预测技巧上有优势,并且方案二比方案一效果更好,但在降水异常级的预测能力上比NCEP的动力模式要差,可能因为统计方法更加倾向于预测平均状态,对降水异常级的预测能力不足。

  • 图6给出了方案一的2011—2020年和方案二的2012—2020年逐年夏季降水预测ACC和PS评分,可见预测评分表现出明显的年际差异。两种方案的预测模型在2012、2013、2016、2018年提前1~6mon起报的平均PS评分均超过70,预测效果较好,对应的ACC评分在上述年份也较高。相比之下,方案二的平均ACC除2015年为负值,其余年份均为正值,整体预测技巧高于方案一。众所周知,ENSO是热带太平洋地区海气系统年际气候变率最强信号(宗海锋等,2010;Wen el al.,2015),ENSO对湖南降水预测有重要指示意义,分析机器学习模型在ENSO年的预测情况可以进一步了解其预测水平。2016和2020年为典型的厄尔尼诺衰减年,两种方案在2016年不同起报时间的预测均有较高的正技巧,平均ACC分别达到0.37和0.36,PS评分分别达到79.8和75.3,但2020年的预测并不稳定,3月起报的降水预测为评分较低。从拉尼娜衰减年预测来看,2013和2018年的预测均有较高的正技巧;整体来看,机器学习建模方法在一定程度上能够识别ENSO对湖南降水的影响。

  • 图5 不同方案预测的湖南夏季降水ACC(a)和PS评分(b)

  • Fig.5 (a)ACC and (b)PS scores of summer precipitation in Hunan under different prediction schemes

  • 图6 方案一(a、c)和方案二(b、d)不同起报时间的机器学习模型预测的历年湖南夏季降ACC(a,b)和PS(c,d)评分

  • Fig.6 (a,b)ACC and (c,d)PS scores of summer precipitation in Hunan predicted by the machine learning models with lead times of 1to 6months in (a,c)scheme Ⅰ and (b,d)scheme Ⅱ

  • 4 讨论

  • 上述结果表明机器学习方法能够改善湖南夏季降水空间分布的预测技巧,但机器学习算法通常属于黑箱模型,在解决气候问题时难以给出合理的物理过程解释,为了能够进一步了解机器学习方法预报技巧的来源,同时考虑到相近起报月份的预测因子相近,这里仅给出3月和12月起报的预测因子中前4个模态通过显著性检验的因子(表4)。可以看出,3月起报模型的前3个模态相关显著的预测因子以前冬极地和中高纬环流指数为主,第四个模态中的南方涛动和赤道中东太平洋200hPa纬向风指数均反映与ENSO的高相关性,并且4月和5月起报的预测因子具有相似特点。12月起报的模型因子第一模态与前期东亚槽和西太副高位置有显著相关,后3个模态与海温相关显著,2月和1月起报的预测因子也与海温显著相关。这可能说明,3—5月起报的模型预报技巧主要来自前冬极地和中高纬环流的信号,而12月—次年2月起报的模型预报技巧主要来自前期海温,而这些因子如何影响湖南降水还需要进一步研究。

  • 表4 机器学习方法挑选的EOF前4个模态中相关系数通过置信度为95%的显著性水平检验的预测因子

  • Table4 Factors of the first four EOF modes selected by the machine learning method and its correlation coefficients that are significant at the 95%confidence level

  • 本文仅考虑了起报时间前3mon的气候因子,相关研究表明湖南夏季降水与前冬的大气海洋状态有重要联系(李瑜等,2015;赵俊虎等,2016;高辉等,2017;余荣和翟盘茂,2018;谢傲和罗伯良,2020),而5月起报模型的预测因子并未包含整个冬季,本文尝试将预测因子时间扩大至起报时间前6mon的范围,结果表明5月起报的方案一和方案二模型对于湖南夏季降水预测的平均ACC分别为0.12和0.15,PS分别为65.1和68.7,效果并不如前者,将其他起报时间的预测因子范围也扩大至前6mon,整体来看二者的平均ACC分别为0.16和0.17,PS分别为68.8和69.1,相比前者也并没有显著的提升,说明机器学习模型挑选的预测因子也存在一定的局限性,通过简单增加预测因子数量的方式对于机器学习模型的预测效果并不会有显著的提升。此外,地形的动力和热力作用对降水的发生有重要影响,湖南三面环山的特殊地形是影响湖南区域性降水的因素之一,本文基于大尺度气候信号构建的模型没有考虑地形因素,对降水异常级预测能力有限,如何在机器学习模型中加入地形因素的影响还需进一步研究。

  • 5 结论

  • 本文采用机器学习算法筛选预测因子并结合动力模式的降水预报建立了湖南夏季降水预测模型。主要结论如下:

  • 采用随机森林算法进行递归特征消除确定预测因子,通过交叉验证确定最优EOF模态个数后,使用多层前馈神经网络、支持向量回归以及自然梯度提升分别建模并对预测结果进行集合平均,比较了两种方案的预测模型及两套动力模式对于湖南夏季降水的预测性能。评估结果表明基于机器学习的预测模型对湖南夏季雨型分布有较好的预测能力,ACC技巧优于动力模式,但对降水异常级的预测不如NCEP模式,两种方案的预测模型不同起报时间的平均ACC分别为0.15和0.19,平均PS评分分别为69.3和69.2;并且机器学习建模方法能够较好地识别ENSO对湖南降水的影响。

  • 进一步分析机器学习模型挑选的预测因子与降水关联,3—5月起报的机器学习模型的预测技巧可能来源于前冬极地和中高纬环流,12月—次年2月起报的模型预测技巧则可能来自海温的前兆信号,由于机器学习的黑箱特点,很难了解这些因子之间相互调制的物理过程,有待通过诊断分析及模式敏感性试验等方法进一步研究。

  • 参考文献

  • 参考文献

  • 地址:江苏南京,宁六路219号,南京信息工程大学    邮编:210044

    联系电话:025-58731158    E-mail:xbbjb@nuist.edu.cn    QQ交流群号:344646895

    大气科学学报 ® 2022 版权所有  技术支持:北京勤云科技发展有限公司