-
梅雨期是东亚夏季风雨带由南向北推进过程中的重要阶段(Ding,1992; Ding et al.,2020)。梅雨降水多寡直接影响长江流域的旱涝状况,尤其是梅雨异常带来的旱涝灾害严重影响长江流域经济发展和人民生产生活。例如:1998年梅雨异常偏多导致长江中下游大洪水,造成3 000余人死亡,直接经济损失将近2 500亿元(陶诗言等,1998; Lu,2000); 2020年超级暴力梅打破了1961年以来长江流域梅雨季降水纪录,3 800余万人受洪涝影响(刘芸芸和丁一汇,2020; Ding et al.,2021); 2022年梅雨历史性极端偏少,长江流域出现大范围干旱(张强,2022; 孙博等,2023),导致64万hm2耕地受灾、83万人供水困难。因此,揭示梅雨变异规律、理解其物理成因、进而提升梅雨季节预测水平,是国家防灾减灾的迫切需求。
-
作为热带暖湿空气和中高纬度冷干气流汇合的锋面系统,梅雨降水多寡受到热带和中高纬度环流系统共同控制(Ding,1992; Wang and Lin,2002)。夏季对流层低层太平洋副热带高压西北侧的西南风将水汽向北输送至长江流域,提供梅雨主要水汽来源(张庆云和陶诗言,2003); 对流层高层南亚高压的东伸通过抽吸作用增强梅雨降水(Ren et al.,2015); 欧亚大陆上阻塞高压(张庆云和陶诗言,1998)和东北冷涡(王丽娟等,2010)引导干冷空气南下,与北上的暖湿空气在长江中下游交汇,形成梅雨环流形势; 此外,丝绸之路型遥相关(Lu et al.,2002)和太平洋-日本/东亚-太平洋型遥相关(Nitta,1986)均可通过影响东亚局地环流,进而影响梅雨降水(Guan et al.,2019; 陶丽等,2020)。调控梅雨降水的局地环流异常是更大尺度海陆气相互作用的结果:ENSO作为全球最显著的热带年际气候模态,通过西北太平洋风-蒸发-海温反馈机制(Wang et al.,2000; Wu et al.,2017)、印度洋“电容器”效应(Xie et al.,2016)影响西北太平洋反气旋异常,进而调控梅雨降水; 而不同类型的ENSO事件也会对梅雨造成差异性影响(陈文等,2018; Zhou et al.,2019); 北大西洋海温异常可以通过热带和热带外两条路径调控东亚环流形势,进而影响梅雨降水(Yang et al.,2023; Zhu et al.,2023); 而北极海冰(Guo et al.,2014)、欧亚大陆积雪(Zhang et al.,2021)、局地土壤湿度(Zuo and Zhang,2016)等陆面因子也能直接或间接调控东亚环流,最终影响梅雨降水。
-
除梅雨变异机理研究,准确预测梅雨也是国家防灾减灾的迫切需求(宋进波等,2018)。范可等(2007)通过考察与梅雨年际增幅相关的环流异常,建立了统计预测模型,其在独立预报时段平均均方根误差控制在20%以内; Xing et al.(2016)结合经验正交分解和偏最小二乘回归方法建立了中国夏季降水统计预测模型,其提前4个月预测结果远优于动力模式提前1个月的预报技巧。除统计模型外,英国气象局数值预报业务模式(GloSea5)由于准确预测海洋性大陆对流活动及其向中国南方和长江流域的水汽输送,所以对梅雨降水的回报技巧高于欧盟ENSEMBLES多模式集合系统(Li et al.,2016); 中国国家气候中心全球海气耦合模式第2代气候预测模式相比第1代模式对环流和物理量场的预报性能明显提升,但仍低估了中国东部夏季降水(张丹琦等,2019),其原因在于低估了西太平洋及印度洋海表温度,导致预测的西太平洋副热带高压及水汽辐合偏弱。综上所述,统计模型预测和动力模式在梅雨预测中均存在显著不足。
-
近年来,基于物理机制的经验预测模型(Physical-based Empirical Model,PE模型)被证明优于传统统计模型以及大部分数值预报模式。PE模型强调预测因子与预报量间的物理联系以及预测因子间的相互独立性,保证了预测的稳定性,同时避免了过拟合问题。比如:在印度夏季风全区平均降水的季节预测中,PE模型在92 a(1921—2012年)回报中具有显著的技巧(相关系数为0.64),独立预测期技巧优于动力模式(Wang et al.,2015)和业务预测(Li et al.,2017); 针对中国东北夏季降水季节预测,PE模型独立预测的2003—2019年降水序列与观测的相关系数为0.70,显著高于5个动力模式集合平均的结果(0.24)(Zhao et al.,2022); 在中国南方夏季降水(Yim et al.,2014; Li et al.,2023)、东亚初夏副热带锋面(Xing et al.,2017)的预测中,PE模型也具有稳定而出色的独立预测技巧。
-
随着人工智能的兴起,机器学习在天气预报和气候预测领域得到越来越多的运用(杨淑贤,2022)。沈皓俊等(2020)利用长短期记忆网络对中国夏季降水进行了回报实验,所得PS评分高于同期全国会商和业务模式; 苗春生等(2017)通过C4.5算法,基于前期春季因子建立了长江中下游地区夏季降水预测模型,其预测准确率可达80%以上; Fan et al.(2023)基于自动编码器确定了中国东部夏季降水预测因子,并利用随机森林(Random Forest)和梯度回归算法建立了降水预测模型,其在华南地区的预测结果优于主流模式10%以上。相比于动力模式和传统统计模型,在大样本训练下的机器学习模型处理非线性问题具有更大优势。然而,由于过拟合问题,机器学习在独立预报以及测试数据集中的技巧急速下降,实际业务预测中的表现常常不尽如人意。因此,机器学习方法能否应用于梅雨季节预测还有待进一步验证。
-
为了进一步厘清梅雨异常机理、提升梅雨季节预测技巧,本文主要解决2个关键科学问题:影响梅雨降水的物理机制是什么?基于物理机制的经验预测模型、传统统计模型和机器学习模型3者对梅雨的季节预测水平究竟孰优孰劣?本文将利用降水站点观测资料和全球再分析数据,揭示6—7月长江中下游梅雨的相关物理机制,建立PE预测模型,并对比传统统计模型和机器学习模型对梅雨的预测技巧,以期提升6—7月梅雨降水的季节预测水平,为业务部门预测提供参考。
-
1 资料、方法和模式
-
1.1 资料
-
1)国家气象信息中心格点化数据集(CN05.1)中的逐月降水资料(吴佳和高学杰,2013),空间分辨率为0.25°×0.25°; 2)欧洲中期天气预报中心(ECMWF)第5代大气再分析数据集(ERA5),空间分辨率为1.0°×1.0°(Hersbach et al.,2020); 3)美国国家海洋和大气管理局第5套全球逐月海表温度(SST)重构资料(ERSSTv5),空间分辨率为2.0°×2.0°(Huang et al.,2017); 4)日本气象台逐月再分析降水数据,水平分辨率为1.25°×1.25°(Kobayashi et al.,2015)。本文将1961—2000年作为训练期,用于统计诊断分析以及预测模型建模; 将2001—2022年作为独立预测期,用于预测模型的独立预测检验。
-
1.2 方法
-
1)物理经验预测模型。PE模型有别于传统的统计模型,更注重预测因子与预测量之间的物理机制联系,在东亚气候季节预测中表现出良好技巧(Yim et al.,2014; Wang et al.,2015)。PE模型的建立有2个关键步骤:1)通过梅雨指数与前期下垫面异常进行超前滞后相关分析,普查潜在的预测因子。下垫面异常包括海表温度(SST)、2 m温度(T2M)、海平面气压(SLP)、土壤湿度(SM)和积雪深度(SD)。考虑到前期下垫面异常存在持续和变化2种态势,我们将潜在预测因子分为2类:持续信号(如4—5月平均的下垫面异常)和趋势信号(如5月减4月的下垫面异常或4—5月平均减前1年12月—当年1月平均的下垫面异常); 2)逐步回归筛选出最优预测因子并建立统计预测模型方程。将所有潜在预测因子与预测量(梅雨指数)进行逐步回归分析,挑选出最显著相关且相互独立的预测因子,建立起PE预测模型。相比于多元回归方法,逐步回归方法同时兼顾预测因子与预测对象的显著相关性和预测因子间的相对独立性。
-
2)偏最小二乘回归预测模型。基于偏最小二乘(Partial Least Square,PLS)回归方法(Wold et al.,1984; Wu and Yu,2016)的预测模型建立步骤如下:首先对所有预测因子X和预报量Y进行相关分析,将预测因子X投影到相关系数上得到特征向量Z1,同时计算Z1对预报量Y的解释方差。PLS方法的核心思想是提高对预报量Y的解释方差,考虑到Z1只包含了预测场X的部分信息,因此对X和Y进行残差估计并提取新一轮的特征向量Z2,直到最终的Zk(k为特征向量的个数)能够使对Y的解释方差及X、Y之间的相关性最大化。最后,对Z1、Z2、···、Zk与预报量Y进行多元回归分析,建立起PLS预测模型。PLS预测模型中预测因子X包括了前期下垫面异常场中的所有统计相关区域,即包含了更多前期下垫面异常的可预测信息(Li et al.,2017)。
-
3)机器学习预测模型。为了对比不同机器学习预测模型对长江流域梅雨季节预测的技巧,本文采用了5种机器学习模型:基于Bagging方法的Random Forest模型和基于Boosting方法的LightGBM、Adaboost、Catboost、XGboost模型。在机器学习模型建模中,我们使用贝叶斯优化来确定各个模型的最优参数,以提高机器学习方法的预测性能(崔佳旭和杨博,2018)。
-
Bagging方法类似于多模式集合平均,即通过计算模型中所有学习器的预测结果平均值来减小模型的方差,在一定程度上能克服过拟合问题,但其缺点在于易被学习能力较差的模型影响。随机森林(Random Forest)模型是典型的Bagging集成模型之一,通过对变量和数据的使用随机化,生成很多分类树,再汇总分类树的结果(Breiman,2001)。
-
Boosting方法的核心思想是通过迭代训练多个“弱”学习器组装成“强”学习器来改进模型的预测能力。Boosting方法的众多子算法区别在于在组合弱学习器的不同策略,例如:轻量级梯度提升机算法(light gradient boosting machine,LightGBM)使用直方图分割方法(Ke et al.,2017); 自适应提升算法(adaptive boosting,Adaboost)通过调整概率分布改变权重(Freund and Schapire,1997); 类别型特征提升算法(categorical boosting,Catboost)通过添加先验分布项来处理类别特征(Dorogush et al.,2018); 极端梯度提升算法(eXtreme gradient boosting,XGboost)采用前向分布方法且兼顾线性求解器和树算法的特性(Chen and Guestrin,2016)。
-
4)评估指标。为了定量评估模型的预测技巧,本文使用了以下指标:平均绝对误差(Mean Absolute Error,MAE)、均方根误差(Root Mean Square Error,RMSE)、时间相关系数(Temporal Correlation Coefficient,TCC)、距平符号一致率(Predictive Consistent,PC)以及均方技巧得分(Mean Square Skill Score,MSSS)。MAE、RMSE、MSSS的计算公式如下:
-
其中:n代表序列长度;x代表观测值;代表气候态平均;f代表模型预测结果;MSE为预测序列的均方误差;MSEc为气候态预测的均方误差。
-
1.3 数值模式
-
本文利用线性斜压模式(Linear Baroclinic Model,LBM)(Watanabe and Kimoto,2000)来揭示长江中下游梅雨机理。LBM模式的水平分辨率为T42,垂直方向上从地面到10 hPa共分21层。文中加入观测对应的大气异常热源强迫或涡度强迫来驱动模式积分35 d,取第21—25天平均代表大气环流异常对给定外强迫的稳定响应(Huang et al.,2024)。
-
2 梅雨的时空特征及相关环流异常场
-
2.1 梅雨的时空分布特征
-
图1a表明中国降水呈现南多北少的分布形势,长江及以南地区降水偏多,最大值位于长江中下游(117.75°E,29.5°N)。降水标准差的大值区同样位于长江中下游(图1b),最大值点(117.5°E,30°N)的变率可达3 mm·d-1。对气候态降水最大值点、标准差最大值点与每个格点做相关分析,结果显示长江中下游降水变率具有区域一致性(图1c、d)。因此,定义变率一致的长江中下游(108°~123°E,27°~33°N)平均降水标准化序列为梅雨指数(Meiyu Index,MYI)(图1e)。
-
图1 1961—2000年中国6—7月降水气候态(a; 单位:mm·d-1)、降水标准差(b; 单位:mm·d-1)、降水气候态最大点(117.75°E,29.5°N)与其他区域降水的单点相关分布(c)、降水标准差最大点(117.5°E,30°N)与其他区域降水标准差的单点相关分布(d),以及1961—2022年标准化的梅雨指数(a、b中红星为最大值所在格点; c、d中黑框为长江中下游(108°~123°E,27°~33°N),打点区域表示相关系数通过置信度为99%的显著性检验)
-
Fig.1 (a) Climatology (units:mm·d-1) and (b) standard deviation (units:mm·d-1) of June—July mean precipitation over China from 1961 to 2000 (Red stars mark the location of maximums) ; (c) one-point correlation map of precipitation between the climatology maximum grid point (29.5°N, 117.75°E) and other grid points (the black box indicates the middle and lower reaches of the Yangtze River basin (27°—33°N, 108°—123°E) ; dotted areas indicate that the correlation coefficients are significant at the 99% confidence level) ; (d) same as (c) , but for the standard deviation maximum grid point (30°N, 117.5°E) ; (e) standardized Meiyu index (MYI) from 1961 to 2022
-
2.2 长江中下游梅雨相关的环流异常
-
梅雨偏多时,东亚沿岸的环流形势表现为准正压的太平洋-日本型遥相关负位相(图2)。对流层低层西太平洋反气旋环流异常西侧的西南风将水汽向北输送至长江流域(图2c),而正压的东北亚气旋性环流异常西侧的北风阻止了水汽进一步北传,导致水汽在长江流域辐合、梅雨偏多。正压的西太平洋反气旋性环流异常同时带来下沉运动,导致西太平洋降水偏少(图2a)。此外,在中纬度存在位势高度异常正负交替的显著信号:俄罗斯中东部的反气旋异常、青藏高原以西和白海上空的气旋异常、法国以西的反气旋异常、北大西洋的气旋异常和加拿大东部的反气旋异常(图2a)。从对流层中层也能看到上述显著的中纬度正负交替位势高度异常(图2b),表明梅雨与中高纬遥相关波列显著相关。
-
梅雨异常偏多时,印度洋-西太平洋暖池地区、赤道东太平洋、热带大西洋海温均显著偏暖(图2b)。印太暖池显著的正海温异常有利于局地蒸发及对流发展,产生的开尔文波响应及东风异常增强了西太平洋反气旋异常,进而激发东亚沿岸的太平洋-日本型遥相关(Xie et al.,2016)。赤道东太平洋正海温异常也可通过风-蒸发-海温反馈机制增强西北太平洋反气旋异常,进而调控梅雨降水(Wu et al.,2017; Wang et al.,2000)。同时,活跃的热带大西洋对流活动一方面通过开尔文波响应增强西北太平洋反气旋异常,另一方面抑制东太平洋对流并导致对流层低层辐散,增强了西北太平洋反气旋异常; 此外,热带大西洋正对流还能影响局地环流异常,扰动欧亚大陆上空中纬度波列,增强长江流域以北的气旋性环流异常,导致梅雨正异常(Yang et al.,2023; Zhu et al.,2023)。
-
3 梅雨季节预测模型
-
3.1 梅雨物理经验预测模型
-
上述海表温度异常及中纬度波列与梅雨之间的物理联系具体如何?能否作为预测因子,建立6—7月长江流域梅雨的季节预测模型?下文将揭示预测因子调控梅雨的物理机制并建立预测梅雨的PE模型。
-
首先普查了训练期(1961—2000年)MYI与前期下垫面异常(SST、T2M、SLP、SD、SM)的超前滞后相关关系,并根据潜在的梅雨相关物理机制划分显著区域,通过相关系数加权计算出21个持续信号和64个趋势信号,其中12—1月表示梅雨的前1年12月和当年1月的平均。85个潜在预测因子的具体定义如表1所示,所有预测因子皆与梅雨指数显著相关(通过90%置信度的显著性检验)。
-
图2 MYI回归的200 hPa位势高度(填色,单位:gpm)和风场(矢量,单位:m·s-1)(a);(b)同(a),但为500 hPa位势高度(等值线,单位:gpm)、风场(矢量,单位:m·s-1)以及海温和2 m温度(填色,单位:℃);(c)同(a),但为850 hPa位势高度(等值线,单位:gpm)、风场(矢量,单位:m·s-1)和降水(填色,单位:mm·d-1)。打点区域表示回归系数通过置信度为95%的显著性检验。字母A、C分别表示反气旋、气旋异常
-
Fig.2 Regression of MYI against (a) 200 hPa geopotential height (shading, units:gpm) and wind (vectors, units:m·s-1) ; (b) same as (a) , but for 500 hPa geopotential height (contours, units:gpm) , wind (vectors, units:m·s-1) , and SST/T2M (shading, units:℃) ; (c) same as (a) , but for 850 hPa geopotential height (contours, units:gpm) , wind (vectors, units:m·s-1) , and precipitation (shading, units:mm·d-1) .Dotted areas indicate that the regression coefficients are significant at the 95% confidence level.The letters A and C denote the centers of the anticyclonic and cyclonic anomalies, respectively
-
注:1)、2)分别表示相关系数通过置信度为99%、95%的显著性检验.
-
通过逐步回归分析筛选出3个预测因子:X17,4—5月平均的副热带西太平洋海平面气压正异常(positive SLP anomalies over subtropical western Pacific,SWP); X54,3月至5月北大西洋海平面气压负变压倾向(SLP negative tendency over North Atlantic,NAP); X75,1月至4月西伯利亚的地表温度负倾向(cooling tendency of T2M over East Siberian,EST)。
-
图3给出了MYI与SWP、NAP、EST的相关性空间分布。MYI与SWP、NAP、EST的相关系数分别为0.67、0.43、0.47,通过置信度为99%的显著性检验(表2)。此外,上述3个预测因子之间的相关系数(0.04、-0.10、0.34)均未通过置信度为99%的显著性检验,说明3个预测因子均代表不同的物理过程。
-
注:1)、2)分别表示相关系数通过置信度为99%、95%的显著性检验.
-
3.1.1 梅雨相关机理
-
SWP、NAP和EST究竟如何影响梅雨?我们使用超前滞后回归分析预测因子相关的物理过程,并利用LBM设计相应的敏感性试验验证相关机理。
-
与西太平洋持续的海平面气压正异常(SWP)对应的是局地持续的负降水异常(图4a、d)和赤道东太平洋、印度洋持续的正海温异常(图4b、e)。春季印度洋显著的正海温异常增强局地对流活动,通过吉尔响应产生东传的开尔文波,东风异常增强了西北太平洋反气旋,导致中国南方正降水异常。夏季,印度洋夏季风爆发,西南风强盛导致正降水异常向北至长江流域。同时,热带东太平洋活跃的对流(上升运动)导致菲律宾海及西太平洋的对流受到抑制(下沉运动),沃克环流增强使西太平洋反气旋增强,其西侧的南风持续将水汽向北输送至长江中下游地区,增加了6—7月的梅雨降水。综上所述,SWP反映的是由春到夏持续的热带海气耦合模态,即印度洋正海温异常及对流一方面通过开尔文波产生东风异常,另一方面增强沃克环流,影响菲律宾和西太平洋的下沉运动,进一步增强西太平洋反气旋,最终增加6—7月梅雨降水。
-
为了验证上述机理,我们设计了LBM敏感性试验(图5)。在6—7月背景态下,给定SWP对应的非绝热加热时(图5a),对流层低层印度洋上有显著的东风异常,即开尔文波响应; 热带东太平洋出现辐合而西太平洋呈现显著辐散,即沃克环流(图5c); 二者的共同作用增强了西太平洋反气旋异常。反气旋异常西侧的西南风将热带水汽向北输送(图5b),由于东北亚气旋异常阻拦水汽的进一步向北输送(图5a),导致梅雨降水增多。因此,观测诊断和数值试验都证明:SWP代表从春到夏持续的热带海气耦合模态能影响东亚沿岸的经向环流异常,进而增强梅雨降水。
-
图3 1961—2000年梅雨指数与4—5月平均的海平面气压(a)、5月减3月的海平面气压(b)、4月减1月的2 m温度(c)的相关系数分布(打点区域表示相关系数通过置信度为90%的显著性检验)
-
Fig.3 Correlation maps between the MYI and (a) April—May mean sea level pressure, (b) May minus March sea level pressure, and (c) April minus January 2 m temperature from 1961 to 2000 (dotted areas indicate that the correlation coefficients are significant at the 90% confidence level)
-
图4 SWP回归的1961—2000年4—5月平均200 hPa位势高度(等值线,单位:gpm)、风场(矢量,单位:m·s-1)和降水(填色,单位:mm·d-1)(a);(b)同(a),但为500 hPa位势高度(等值线,单位:gpm)、风场(矢量,单位:m·s-1)和海表温度(填色,单位:℃);(c)同(a),但为850 hPa高度(等值线,单位:gpm)、风场(矢量,单位:m·s-1)和海平面气压场(填色,单位:hPa)。(d—f)同(a—c),但为6—7月平均的各要素场对SWP的回归。打点区域表示回归系数通过置信度为95%的显著性检验。字母A、C分别表示反气旋、气旋异常
-
Fig.4 Regression of SWP against April—May mean (a) 200 hPa geopotential height (contours, units:gpm) , wind (vectors, units:m·s-1) , and precipitation (shading, units:mm·d-1) from 1961 to 2000; (b) same as (a) , but for 500 hPa geopotential height (contours, units:gpm) , wind (vectors, units:m·s-1) , and SST (shading, units:℃) ; (c) same as (a) , but for 850 hPa geopotential height (contours, units:gpm) , wind (vectors, units:m·s-1) , and SLP (shading, units:hPa) . (d—f) same as (a—c) , but for the June—July mean.Dotted areas indicate that the regression coefficients are significant at the 95% confidence level.The letters A and C denote the centers of the anticyclonic and cyclonic anomalies, respectively
-
图6给出了NAP相关的超前滞后相关空间分布。2—3月大西洋上空位势高度场表现为北大西洋涛动(North Atlantic Oscillation,NAO)的正位相(图6a—c)。中高纬度还存在显著的位势高度异常正负交替的形势:北大西洋正压气旋异常、西欧反气旋异常、俄罗斯中部气旋异常和中国北方反气旋异常。波活动通量清晰地显示能量从北大西洋向下游传播至中国北方(图6a),表明该中纬度准正压罗斯贝波列显著影响东亚环流形势。4—5月,NAO由正位相转变为负位相(图6d—f),北半球中高纬度波列环流中心转变为:北大西洋和欧亚大陆北部的反气旋异常,位于欧洲西北部和中国北部的气旋异常。6—7月上述波列向下游略微移动(图6g—i),东北亚气旋异常西侧北风(图6i)将中高纬干冷空气向南输送,干冷空气与南方暖湿空气在长江流域相遇,导致梅雨偏多。因此,NAP代表3月至5月NAO相关中纬度遥相关波列的变化,即NAO相关中纬度遥相关波列增强东北亚气旋进而增强长江中下游梅雨。
-
给定NAP对应的北大西洋涡度强迫时,欧亚大陆上空大气环流响应表现为显著的波列(图7),且环流中心与观测基本一致。长江流域北侧为气旋异常(图7c),西侧北风将高纬冷空气输送至长江流域,持续影响梅雨。因此,NAP代表NAO相关的中纬度准正压罗斯贝波列的变化,波列位相转变增强了东北亚气旋异常,最终增加梅雨降水。
-
图5 6—7月背景态下200 hPa位势高度(等值线,单位:gpm)和风场(矢量,单位:m·s-1)对SWP相关非绝热加热(填色,单位:K·d-1)的响应(a; 右上角折线图为大气非绝热加热的垂直廓线,单位:10 K·d-1)。(b、c)同(a),但分别为500 hPa和850 hPa的响应
-
Fig.5 (a) 200 hPa geopotential height (contours, units:gpm) and wind (vectors, units:m·s-1) response to the atmospheric diabatic heating (shading, units:K·d-1) over tropic associated with SWP under the mean state of June—July.The vertical profile of diabatic heating (units:10 K·d-1) given in the numerical model is on the top right. (b) and (c) are the same as (a) , but for the response of 500 hPa and 850 hPa, respectively
-
图8给出了EST相关的超前滞后空间分布。1—2月准正压的北太平洋气旋异常控制东亚地区,而太平洋反气旋异常则占据热带太平洋(图8a—c)。3—4月西伯利亚地表温度迅速降低,对应局地低压异常(EST)。西伯利亚与热带增大的温度梯度增强副热带纬向西风急流(图8d—f),维持了东亚和太平洋上空的经向环流形势。东亚沿岸40°N以北受北太平洋气旋异常控制,40°N以南受热带太平洋反气旋异常控制。在5—6月,上述经向偶极型环流异常仍然控制东亚地区(图8g—i),反气旋异常西侧的北风异常和气旋异常西侧的南风异常导致水汽在长江流域辐合,增加了5—6月梅雨。综上所述,EST代表了西风急流增强的影响,即通过维持东亚沿岸经向偶极型环流异常,导致水汽在长江流域辐合、梅雨增多。
-
在5—6月气候态背景下,给定EST对应的负非绝热加热强迫,中国北方大气环流响应表现为气旋异常(图9),40°N以南则为反气旋异常,与观测结果一致。尽管敏感性试验中的北太平洋气旋异常相比于观测偏西偏北,但东亚至太平洋的经向偶极型环流形势模拟效果较好,说明EST对东亚上空环流有显著影响。综上所述,观测诊断和模式试验结果表明,1月至4月EST影响东亚沿岸大气经向温度梯度,增强西风急流,影响东亚沿岸经向偶极型环流异常,最终增强梅雨降水。
-
3.1.2 梅雨的物理经验预测模型
-
前文通过观测诊断和数值试验分别验证了SWP、NAP和EST影响6—7月梅雨的机理,据此,6—7月梅雨PE模型方程建立如下:MYI=0.42×SWP+0.42×NAP+0.34×EST,PE模型在训练期和独立预测期的预测结果如图10所示。预测因子的系数能够反映其贡献率,因此热带强迫(SWP)与副热带强迫(NAP、EST)贡献相当,进一步验证梅雨是热带和中高纬度强迫同时作用的结果。
-
在训练期(1961—2000年)和独立预测期(2001—2022年),PE模型均展现了优秀的预测技巧(图10)。训练期PE模型回报的时间序列与观测MYI的TCC为0.79,通过了置信度为95%的显著性检验; MSSS达到0.62说明PE模型的预测结果接近于观测。此外,PE模型对观测中降水多寡的预测准确率(PC)达到85%; RMSE和MAE分别为0.59和0.48,进一步说明PE模型预测结果与观测的误差较小。在独立预测期,PE模型TCC达到0.77,几乎与训练期持平且通过了置信度为95%的显著性检验; MSSS为0.57,表示PE模型在独立预测期能准确地预测梅雨降水多寡; PC虽然略有降低(72%),但PE模型准确预报出了2013年的干旱、2016年的洪涝和2020年的超强梅雨事件; RMSE和MAE分别为0.68和0.50,略有提高。综上所述,从训练期到独立预测期,本文建立的PE模型对6—7月梅雨具有显著且稳定的预测技巧,能够准确预测出梅雨极端异常。
-
图6 NAP回归的1961—2000年2—3月平均的200 hPa位势高度(填色,单位:gpm)、风场(黑色矢量,单位:m·s-1)和罗斯贝波波活动通量(紫色矢量,单位:m2·s-2)(a);(b)同(a),但为500 hPa位势高度(等值线,单位:gpm)、风场(矢量,单位:m·s-1)和海表温度(填色,单位:℃);(c)同(a),但为850 hPa位势高度(等值线,单位:gpm)、风场(矢量,单位:m·s-1)和降水(填色,单位:mm·d-1)。(d—f)和(g—i)同(a—c),但分别为4—5月平均、6—7月平均的各要素场对NAP的回归。打点区域表示回归系数通过置信度为95%的显著性检验。字母A、C分别表示反气旋、气旋异常
-
Fig.6 Regression of NAP against February—March mean (a) 200 hPa geopotential height (shading, units:gpm) , wind (black vectors, units:m·s-1) , and Rossby wave activity fluxes (purple vectors, units:m2·s-2) from 1961 to 2000; (b) same as (a) , but for 500 hPa geopotential height (contours, units:gpm) , wind (vectors, units:m·s-1) , and SST (shading, units:℃) ; (c) same as (a) , but for 850 hPa geopotential height (contours, units:gpm) , wind (vectors, units:m·s-1) , and precipitation (shading, units:mm·d-1) . (d—f) and (g—i) are the same as (a—c) , but for the April—May mean and June—July mean, respectively.Dotted areas indicate that the regression coefficients are significant at the 95% confidence level.The letters A and C denote the centers of the anticyclonic and cyclonic anomalies, respectively
-
3.2 梅雨的偏最小二乘回归预测模型
-
PE模型相比于传统统计模型的优势究竟如何?本文选用PLS方法,基于相似的预测因子,即4—5月平均的海平面气压场、5月减3月的海平面气压场以及4月减1月的2 m气温场(SWP、NAP、EST同期的同类气候要素场)进行建模。相比于PE模型,PLS模型相对囊括了更多的预测信息,那么PLS模型在训练期和独立预测期的预报技巧是否也优于PE模型呢?
-
PLS模型在训练期技巧更高,但独立预测的技巧不如PE模型(图11)。在训练期PLS模型回报长江流域的降水多寡准确率为90%,高于PE模型的85%; 序列相关性为0.86,MSSS评分为0.74,均略高于PE模型; 回报的误差相比于PE模型更小(RMSE=0.49,MAE=0.35)。上述结果证实,在包含更多预测信息的情况下,PLS模型的预测技巧确实更高。但在独立预测期,PLS模型的技巧显著降低(TCC=0.43,MSSS=0.18,PC=59%)且误差更大(RMSE=0.94,MAE=0.73); 说明在PLS模型的建立中,为提高对预报量的解释率忽视了过拟合问题。尤其是对极端事件(2016年洪涝、2020年超强梅雨)的预测中,PLS预测模型几乎没有预测技巧。在不考虑物理机制的情况下,传统统计模型虽然在训练期具有较高的回报技巧,但在独立预报中并不能提供可靠的预报结果。
-
3.3 梅雨的机器学习预测模型
-
为了保证模型技巧对比的公平性,本文根据挑选的85个潜在预测因子对5种机器学习方法进行训练和建模。基于5种机器学习方法的季节预测模型在训练期和独立预测期的预测技巧如图12所示。
-
图7 6—7月背景态下200 hPa位势高度(等值线,单位:gpm)和风场(矢量,单位:m·s-1)对NAP相关的北大西洋涡度强迫(填色,单位:10-5 s-1)的响应(a)。(b)和(c)同(a),但分别为500 hPa和850 hPa的响应。红实线、蓝虚线分别表示位势高度正、负异常
-
Fig.7 (a) 200 hPa geopotential height (contours, units:gpm) and wind (vectors, units:m·s-1) response to the vorticity forcing (shading, units:10-5 s-1) over the North Atlantic associated with NAP under the mean state of June—July. (b) and (c) are the same as (a) , but for the response of 500 hPa and 850 hPa, respectively.Red solid and blue dashed lines represent positive and negative geopotential height anomalies, respectively
-
图8 EST回归的1961—2000年1—2月平均的200 hPa位势高度(填色,单位:gpm)和风场(矢量,单位:m·s-1)(a);(b)同(a),但为500 hPa位势高度(等值线,单位:gpm)、风场(矢量,单位:m·s-1)以及海表温度和2 m温度(填色,单位:℃);(c)同(a),但为850 hPa位势高度(等值线,单位:gpm)、风场(矢量,单位:m·s-1)和降水(填色,单位:mm·d-1)。(d—f)和(g—i)同(a—c),但分别为3—4月平均和5—6月平均的各要素场对EST的回归。打点区域表示回归系数通过置信度为95%的显著性检验。字母A、C分别表示反气旋、气旋异常
-
Fig.8 Regression of EST against the January—February mean (a) 200 hPa geopotential height (shading, units:gpm) and wind (vectors, units:m·s-1) from 1961 to 2000; (b) same as (a) , but for 500 hPa geopotential height (contours, units:gpm) , wind (vectors, units:m·s-1) , and SST/T2M (shading, units:℃) ; (c) same as (a) , but for 850 hPa geopotential height (contours, units:gpm) , wind (vectors, units:m·s-1) , and precipitation (shading, units:mm·d-1) . (d—f) and (g—i) are the same as (a—c) , but for the March—April mean and May—June mean, respectively.Dotted areas indicate that the regression coefficients are significant at the 95% confidence level.The letters A and C denote the centers of the anticyclonic and cyclonic anomalies, respectively
-
图9 5—6月背景态下200 hPa位势高度(等值线,单位:gpm)和风场(矢量,单位:m·s-1)对EST相关的西伯利亚负非绝热加热(填色,单位:K·d-1)的响应(a; 右上角折线图为大气非绝热加热的垂直廓线,单位:10 K·d-1)。(b)同(a),但为500 hPa的响应
-
Fig.9 (a) 200 hPa geopotential height (contours, units:gpm) and wind (vectors, units:m·s-1) response to the negative atmospheric diabatic heating (shading, units:K·d-1) over Siberian associated with EST under the mean state of May—June.The vertical profile of diabatic heating (units:10 K·d-1) given in the numerical model is on the top right. (b) same as (a) , but for the response of 500 hPa
-
图10 观测(黑线)和PE模型预测(蓝线为训练期,红线为独立预报期)的梅雨指数(柱状图为观测与预测的差)
-
Fig.10 Time series of MYI in observation (black line) and PE model (blue and red lines are hindcast and independent forecast, respectively) .The bar denotes the difference in MYI between observation and the PE model
-
在训练期,5种机器学习模型均具有极高的回报技巧(TCC分别为0.99、1.00、0.99、1.00、1.00),基本达到“完美拟合”的效果。根据机器学习模型的建立过程可知,数据量越大则误差越低(RMSE分别为0.24、0.03、0.16、0.05、0.07)。受到学习能力差模型的影响,Random Forest模型的误差相比于其他机器学习模型更高。虽然机器学习模型在训练期的预测技巧极高,但由于过拟合问题,在独立预测期的预测技巧则显著降低。5种机器学习模型预测的序列与观测的TCC分别是0.18、0.06、0.25、0.12、0.24,均未通过置信度为90%的显著性检验; MSSS最高只有0.21,最低为0,说明与观测中梅雨降水的误差巨大。机器学习模型在2001—2022年的同号命中率均不超过50%,表明22 a的独立预测中,有10 a的旱涝情况预测失准。机器学习模型预测的RMSE均大于1.00,MAE均大于0.70,2013、2017年的异常负降水和2015、2020年的异常正降水在5种机器学习模型的独立预测中均未得到体现。值得注意是,2003—2006年长江流域均为负降水异常,但所有机器学习模型均预测为正降水异常; 2015—2020年梅雨降水变率异常增加,所有机器学习模型预测的梅雨降水变率均偏低,说明5种机器学习模型由于不考虑梅雨形成的物理机制,产生了相同的预测误差。综上所述,即使在多种集成方法的支持下,机器学习模型也不能独立、准确地预测梅雨期降水,机器学习在实际业务预报中的应用仍需慎重考虑。
-
图11 同图10,但为PLS预测模型的结果
-
Fig.11 Same as Fig.10, but for the results of the PLS prediction model
-
图12 同图10,但为5种机器学习预测模型(a.Random Forest; b.LightGBM; c.Adaboost; d.Catboost; e.XGboost)的结果
-
Fig.12 Same as Fig.10, but for the results of the prediction model based on (a) Random Forest, (b) LightGBM, (c) Adaboost, (d) Catboost, and (e) XGboost machine learning techniques
-
综上所述,本文建立的PE模型虽然在训练期的技巧不如传统统计模型和机器学习模型,但在独立预测期表现出更加优越、可靠的预测技巧(时间相关系数和均方技巧得分分别是0.77和0.57),同时对梅雨极端异常也保持一定的预测水平,可以为业务部门预测提供参考。
-
4 结论与讨论
-
本文分析了1961—2000年6—7月长江中下游梅雨的时空变化特征,通过观测诊断和数值模式试验验证3个预测因子影响梅雨的机理,并据此建立了梅雨的物理经验预测模型,得到以下主要结论:
-
1)6—7月中国降水的气候态大值区和变率大值区均集中在长江中下游(108°~123°E,27°~33°N),且长江中下游整体的降水变率一致。太平洋-日本型遥相关是影响梅雨降水的主要环流系统,同时赤道东太平洋、印度洋、赤道大西洋正海温异常和中纬度遥相关波列也与梅雨降水显著相关。
-
2)本文确定了3个影响梅雨的预测因子:4—5月平均的西北太平洋海平面气压正异常(SWP)、3月至5月的北大西洋海平面气压负变压倾向(NAP)、1月至4月的西伯利亚2 m温度负倾向(EST)。SWP代表持续的热带海气耦合模态:印度洋和赤道东太平洋的正海温异常影响局地的正对流活动,并通过开尔文波响应和沃克环流增强西北太平洋反气旋异常,而反气旋西侧的西南风将热带水汽向北输送至长江中下游地区,最终增加梅雨降水; 3月至5月的北大西洋海平面气压负变压倾向(NAP)反映了春季至夏季北大西洋涛动(NAO)位相转换对东亚环流形势的影响,NAO位相转换影响了从北大西洋向下游传播至中国的中纬度遥相关波列,最终增强江淮上空的气旋异常,有助于梅雨锋面的形成; 1月至4月的西伯利亚2 m温度负倾向(EST)增大了西伯利亚与热带的温度梯度,导致东亚上空西风急流增强,维持了东亚沿岸正压的经向偶极型环流(北太平洋气旋异常和热带太平洋反气旋异常),长江流域上空南风异常和北风异常带来冷暖空气相遇,导致梅雨偏多。
-
3)基于上述具有物理意义且相互独立的预测因子,本文建立了6—7月梅雨PE预测模型。在1961—2000年训练期和2001—2022年独立预测期间,TCC(MSSS)技巧分别达到了显著的0.79(0.62)和0.77(0.57); 对梅雨极端异常也具有一定的预测水平。相对地,PLS预测模型和5种机器学习预测模型虽然在训练期具有极高的预测技巧,机器学习算法甚至能达到“完美拟合”效果,但在独立预测期PLS预测模型和5种机器学习预测模型的预测技巧显著降低(相关系数最高为0.43),且对梅雨极端异常几乎没有预测技巧。因此,相较于传统的统计模型以及机器学习方法,强调物理机制的PE模型具有更稳定、可靠的预测技巧,在业务应用中具有更可靠的应用前景。
-
本文建立的梅雨物理经验预测模型虽然对6—7月长江中下游梅雨具有很高的预测技巧,但对于梅雨极端异常的预测水平偏低,如在2016和2020年,虽能预报出旱涝形势,但预报不出超强梅雨异常,因此有待进一步考虑次季节变率影响。本文虽然探讨了3个预测因子影响梅雨的物理机制,但梅雨可预报性来源仍需进一步探究,如NAO位相转换的外强迫源及西伯利亚地表温度负变压倾向的来源。此外,近年来梅雨变率增强,而调控东亚夏季降水的热带海温也存在年代际变化,因此预测因子和预报量之间的关系是否稳定也是统计预测中需要考虑的重要问题。
-
致谢:ESCAPE课题组为本文成稿给予了大力帮助,南京信息工程大学高性能计算中心给本文的数值试验提供了计算支持和帮助。谨致谢忱!
-
参考文献
摘要
基于1961—2000年逐月降水观测资料和全球大气再分析资料,分析了6—7月长江中下游(108°~123°E,27°~33°N)梅雨的时空分布特征。通过观测诊断和数值试验确定了影响梅雨异常偏多的3个前期因子:4—5月平均的西北太平洋海平面气压正异常;3月至5月北大西洋海平面气压负变压倾向;1月至4月西伯利亚的2 m温度负倾向。利用这3个具有物理意义的影响因子构建了梅雨季节预测模型,该模型在训练期(1961—2000年)和独立预测期(2001—2022年)均具有显著的预测技巧(相关系数分别为0.79和0.77,均方根误差分别为0.59和0.68)。同时,基于相似的潜在预测因子,对比了利用偏最小二乘回归方法和5种机器学习方法(随机森林、轻量级梯度提升机、自适应提升、类别型特征提升、极端梯度提升)建立的预测模型的技巧。虽然训练期(1961—2000年)偏最小二乘回归和机器学习建模拟合效果更高,但在独立预测期(2001—2022年)上述模型的预测技巧显著降低(相关系数均低于0.44,均方根误差均大于0.93),出现了明显的过拟合问题。本研究强调梅雨的短期气候预测应建立在物理机制基础之上,而使用机器学习方法需谨慎。
Abstract
This study elucidates the spatiotemporal characteristic of June—July mean Meiyu rainfall over the middle and lower reaches of the Yangtze River basin(27°—33°N,108°—123°E) using Chinese monthly gauge precipitation data and global atmospheric reanalysis datasets from 1961 to 2000.Three physically meaningful precursors play pivotal roles in enhancing Meiyu rainfall during June and July.First,positive sea level pressure anomalies over the subtropical western Pacific (SWP) during April—May strengthened the western North Pacific subtropical high by exciting Kelvin wave responses and enhancing Walker circulation.This phenomenon facilitates moisture transport from the tropics to the Yangtze River via southerly winds.The mechanism underlying SWP’s impact on Meiyu highlights the persistent influence of atmosphere-ocean interaction over the Indo-Pacific basin from spring to summer.Second,the negative tendency of sea level pressure over the North Atlantic from March to May (NAP) reflects the influence of North Atlantic Oscillation (NAO)-related mid-latitude wave trains on Meiyu.From spring to early summer,the evolution of NAO-related wave trains across Eurasia strengthens the Northeast Asian cyclone and enhances Meiyu rainfall.Third,the cooling tendency of surface temperature over East Siberian from January to April (EST) is closely associated with the extratropical westerly jet by amplifying the temperature gradient between the tropics and polar regions.This condition favors the maintenance of meridional circulation over East Asia and enhances Meiyu rainfall.The aforementioned mechanisms have been verified in corresponding numerical experiments based on a linear baroclinic model.
Consequently,a physically-based empirical (PE) model based on these three predictors exhibited significant prediction skills,with a temporal correlation coefficient (TCC) of 0.79 and 0.77 and a mean square skill score (RMSE) of 0.59 and 0.68 during the training period (1961—2000) and independent forecast period (2001—2022),respectively.For comparison,the partial least squares (PLS) regression method and five machine learning methods (Random Forest,LightGBM,Adaboost,Catboost,and XGboost) are employed to conduct seasonal predication of Meiyu based on the same potential precursors.Although the PLS model and five machine learning models exhibit prefect hindcast skills (TCCs of LightGBM,Catboost,and XGboost all being 1.00) during the training period,their skills diminish dramatically in the independent forecast period of 2001—2022 (with the maximum TCC being 0.43 and the minimum RMSE being 0.94),indicating a significant overfitting problem.Hence,the PE model based on physically meaningful precursors demonstrates superior and stable independent prediction skills in Meiyu rainfall forecasts.The findings of this study underscore the advantages of the PE model and emphasize caution in the use of machine learning methods in climate prediction.Additionally,the comparison of multiple methods for seasonal prediction of Meiyu in this study provides practical scientific references for operational departments engaged in seasonal climate prediction.
Keywords
Meiyu ; seasonal prediction ; physics-based empirical model ; machine learning