摘要
气象卫星通常能够早于天气雷达发现积云发生发展的前兆信号。为了充分挖掘新一代静止气象卫星多通道数据在石家庄短临天气预报中的作用,本文利用葵花8/9号卫星和天气雷达开展石家庄地区对流初生判别研究,并建立了基于机器学习方法的客观对流初生判别模型。通过分析石家庄地区云图特征,建立了适用于石家庄地区的积云目标识别方法,并结合多目标跟踪算法建立了石家庄地区的对流单体数据集。在进行多目标跟踪的过程中,面对直接剔除卷云和晴空后造成的积云云体较破碎、难以跟踪等难题,本文针对性地提出以完整云团作为研究对象的方法,实现了积云生命周期样本的完整提取。基于对流单体数据集,结合天气雷达观测数据,寻找出现35 dBZ以上回波的积云单体,记录首次出现35 dBZ回波时刻,将之作为对流初生的发生时刻。通过对多通道亮温变化特征与积云发展过程的对照分析,发现积云发展成为强对流过程中,石家庄地区的10.4 μm亮温呈现下降趋势,12.4 μm和10.4 μm亮温差和三通道亮温差呈现上升趋势。据此特征分析筛选出有效的影响因子,建立了随机森林对流初生判别模型,该模型能够有效实现石家庄地区对流初生预报。该模型在对石家庄地区对流初生过程的测试中,实现了92%的有效命中率,相应的虚警率为31%。该算法能够在天气雷达图上没有任何回波的时刻,有效地找到将要发展成为强对流的积云单体,提升了石家庄地区强对流天气预警的时效性。
Abstract
Geostationary meteorological satellites can detect precursor signals of cumulus cloud development earlier than weather radar systems,making them valuable for convective initiation forecasting.To leverage this advantage,various algorithms have been developed,typically involving cloud detection,the removal of cirrus and mature clouds,overlap tracking,and convective initiation identification.Among these steps,the removal of cirrus and mature clouds is particularly crucial,as these cloud types can obscure developing cumulus clouds.However,existing methods face challenges such as cumulus cloud fragmentation after cirrus and mature cloud removal,difficulties in applying overlap tracking to complex cloud imagery,and limitations in threshold-based convective initiation identification.To address these issues,this study introduces several targeted improvements.First,a novel approach is proposed that treats complete cloud clusters as the primary research subject,allowing for the comprehensive extraction of cumulus lifecycle samples.Second,the Hungarian algorithm is incorporated to enhance multi-target tracking capabilities.Third,a random forest algorithm is employed to improve the accuracy of convective initiation identification.This study utilizes data from Himawari-8/9 satellites and weather radar observations to analyze convective initiation in the Shijiazhuang region.A cumulus cloud identification method,specifically tailored to the region,was developed and combined with a multi-target tracking algorithm to construct a detailed dataset of convective cells.By integrating this dataset with radar observations,cumulus clouds associated with weather processes exhibiting reflectivity values above 35 dBZ were identified.The time at which reflectivity first reached 35 dBZ was recorded as the convective initiation time,providing a robust dataset for further analysis.A comparative analysis of multi-channel brightness temperature variations and cumulus cloud development processes revealed key trends.Specifically,as cumulus clouds evolved into strong convective systems,the 10.4 μm brightness temperature in the Shijiazhuang region exhibited a decreasing trend,while the brightness temperature difference between 12.4 μm and 10.4 μm,as well as the three-channel brightness temperature difference (TTD),showed an increasing trend.These patterns were used to identify key factors influencing convective initiation.Based on these findings,a random forest model was developed for convective initiation forecasting in the Shijiazhuang region.The model demonstrated strong performance during testing,achieving a 92% probability of detection (POD) and a 31% false alarm rate (FAR).These results indicate that the model effectively identifies cumulus clouds likely to develop into strong convective systems,even before radar-detectable echoes emerge.A key contribution of this study is its potential to improve the timeliness of severe convective weather warnings in the Shijiazhuang region.By leveraging satellite data and advanced machine learning techniques,the proposed algorithm can detect developing cumulus clouds earlier than traditional radar-based methods.This capability is particularly valuable in regions where severe convective weather significantly impacts agriculture,transportation,and public safety.The integration of Himawari-8/9 satellite data with weather radar observations enhances the understanding of convective processes,leading to more accurate and timely forecasts.In conclusion,this study represents a significant advancement in convective initiation forecasting by addressing key challenges in cloud detection,tracking,and identification while integrating machine learning techniques.The successful application of this model in the Shijiazhuang region demonstrates its potential for broader use in other convective weather-prone areas.Future research could focus on refining the model,expanding the dataset,and exploring additional machine learning approaches to further enhance forecasting accuracy and reliability.This study not only advances the scientific understanding of convective processes but also has practical implications for improving weather warning systems and mitigating severe weather impacts.
强对流天气具有突发性、灾害性、短时性、局部性等特点,对社会生产和人们的生活有着广泛影响。在强对流天气的监测和预报中,天气雷达起着至关重要的作用(俞小鼎等,2012)。经过多年的发展,使用天气雷达进行强对流天气预报的技术手段日趋成熟,并形成了多种基于雷达资料的强对流临近预报算法。其中较典型的算法有SCIT(storm cell identification and tracking algorithm)算法(Johnson et al.,1998)和TITAN(thunderstorm identification,tracking,analysis,and nowcasting)算法(Dixon and Wiener,1993),以及基于计算机视觉的光流法(安晶晶等,2018)。后续随着人工智能技术的发展,逐渐发展出了一系列以卷积神经网络为基础的深度学习算法,包括Conv-LSTM(Shi et al.,2015)、Traj-GRU(Shi et al.,2017)、PredRNN(Wang et al.,2017)、DGMR(Ravuri et al.,2021)等,极大提升了0~2 h临近预报的准确率。
然而,受限于观测站位置和探测范围的影响,尤其是海上缺少雷达观测资料的区域或下垫面复杂导致雷达观测受地形影响严重的区域,仅利用天气雷达开展短临预报无法实现有效预警。相比之下,静止气象卫星观测范围更为广阔,也不受地形影响,可以弥补天气雷达观测的不足。随着科学技术进步,静止气象卫星的时空分辨率有了极大提高(Bessho et al.,2016),以葵花8卫星为例,其时间分辨率已发展到10 min,可见光波段空间分辨率最高达500 m,红外波段的空间分辨率达2 km,已接近雷达观测资料的分辨率。随着探测技术升级,卫星监测和预报强对流天气的能力也在逐步提升(蔡淼等,2011; 肖笑和魏鸣,2018)。
天气雷达主要通过主动遥感的方式获得降水粒子的反射率等信息,从而实现对强对流过程的监测; 静止卫星则主要通过被动遥感的方式获得地表和云体辐射信息,实现对云体的探测。由于对流单体的发生发展具有一定生命周期,从出现积云到形成降水之间有一定时间间隔,气象卫星在对流单体形成降水之前就能从云图上发现积云单体,理论上能够早于雷达观测发现对流单体发生的前兆信号(Mecikalski and Bedka,2006; 姚秀萍和曹晓敏,2023)。基于该逻辑,目前已发展出多种通过卫星观测识别对流初生的算法。例如Mecikalski and Bedka(2006)提出的MB06算法,它基于GOES(geostationary operational environmental satellite)红外通道亮温,融合4 km分辨率的红外通道数据和1 km的可见光数据,通过重叠法对积云单体进行分析与追踪,使用卫星不同通道数据建立了8个判别标准。如果积云单体能够满足其中的7条,即判定该积云单体未来将发展成为强对流,该方法可提前30~45 min对对流单体进行预报(Mecikalski and Bedka,2006; Mecikalski et al.,2008,2010)。Lee et al.(2017)通过引入机器学习技术,建立了基于机器学习的对流初生判别模型,发现使用随机森林算法能够降低对流初生判别的虚警率,但也表示使用重叠法进行积云跟踪存在一定不足。刘京华等(2012)对基于GOES卫星的MB06算法加以改进,修改了对应判别标准的阈值,结果表明通过修改判断标准阈值能够很好地使该算法适用于京津冀地区。李五生等(2014)结合中国京津地区实际情况,进一步针对性地修改了MB06算法的8个判据,并对结果展开检验评估,证实了该方法的有效性。郭巍等(2022)对上海市局地对流过程进行综合分析,并与FY4A卫星的对流初生产品进行对比,结果显示FY4A卫星的对流初生产品能够很好地实现强对流天气的监测,能够有效判断出对流单体的发展和减弱趋势。Zhuge and Zou(2018)利用葵花8号卫星红外通道亮温对福建地区夏季对流初生事件特征进行分析,并充分利用葵花8号卫星的多通道数据优势,增加了新的判别指标,实现了对福建地区对流初生事件的有效预报。段炼等(2022)将Zhuge and Zou(2018)的算法应用到了航空领域,并证实了该方法的有效性。
目前,利用卫星观测识别对流初生的多种算法,总体上是通过卫星观测提前寻找积云单体,并判断该积云单体是否会进一步发展成为强对流。首先通过积云识别算法去除晴空和卷云,选取潜在研究对象; 然后通过积云追踪算法对不同时刻积云目标的云图相关特征信息进行提取; 最后通过一定的算法对积云目标是否会发展成强对流进行判别。在实际应用过程中,已有算法存在一定不足:在积云跟踪时主要依赖重叠法,在对流初生判别时主要依赖阈值法(Mecikalski and Bedka,2006; Zhuge and Zou,2018)。重叠法通过判断两个相邻时刻的积云有无重合,判断积云是否为同一积云单体。这种方法并未考虑到积云的移动方向和速度,且针对移动特别快或者尺度比较小的积云单体,容易出现无法追踪或追踪丢失的情况。使用阈值法对对流初生进行判别时,通过读取当前时刻的积云信息并对比上一相邻时刻的变化,通过计算指标是否达到阈值进行积云初生判断,在指标选取和阈值设定的过程中存在一定的不确定性。随着人工智能技术的发展,当前机器学习算法被广泛应用到卫星资料利用(胡凯等,2017)和天气预报(黄超等,2022; 朱玉祥等,2023)中,相比传统算法,它具有更高的准确性。因此,本文拟引入机器学习算法,以提升判别过程中算法的准确性。
针对目前研究存在的问题,本文从积云跟踪环节和初生判别环节两个方向入手,进行对流初生算法优化。使用计算机视觉中的多目标跟踪算法对积云目标进行跟踪,同时引入机器学习算法,挖掘云图中的有效信息,降低主观因素对算法准确率的影响。使用石家庄地区2021和2022年的夏季强对流过程开展适用研究。使用葵花8/9号静止气象卫星红外通道亮温和石家庄多普勒天气雷达组合反射率,开展基于计算机视觉算法和机器学习算法的石家庄对流初生判别研究。
1 资料
本文使用的数据主要包括2021—2022年6—9月石家庄地区的雷达基数据和葵花8/9号卫星多通道数据。石家庄站雷达为S波段多普勒天气雷达,探测半径为460 km,扫描库长为250 m。由于受地球曲率影响,实际业务中通常使用230 km半径范围探测数据。本文参考实际业务,选取230 km半径内数据进行研究,其覆盖范围如图1的圆圈所示。实际使用该雷达观测数据时,首先对雷达基数据进行处理,包括数据质量控制去除非气象回波(江源,2013),而后将雷达体扫极坐标数据转化到等经纬网格中(肖艳姣和刘黎平,2006),并计算组合反射率。以2022年6月26日08时(世界时,下同)的过程为例,其计算结果如图1所示,可以看到质控过程能够明显消除杂波和非气象回波。
葵花8号卫星为日本第二代静止气象卫星,于2015年7月投入运行,并于2022年12月13日停止下发数据,而后由葵花9号卫星接替。葵花8号和9号卫星均包含有16个通道,其中包含3个可见光通道、3个近红外通道以及10个红外通道(Bessho et al.,2016)。红外通道的分辨率为2 km。目前,我国FY4A卫星的最高空间分辨率与葵花8/9号相当,均为500 m,但仅有0.65 μm可见光通道能达到该分辨率。本文使用的红外通道数据中,FY4A的空间分辨率为4 km,葵花8/9号的空间分辨率为2 km,FY4A号卫星的时间分辨率为15 min,葵花8/9号的时间分辨率为10 min。总之,葵花8/9号卫星在红外波段的时空分辨率均更高。为了更好识别对流初生,本文在后续的分析过程中均使用葵花8/9号卫星观测数据,并将卫星亮温数据和雷达组合反射率统一处理成0.02°×0.02°的等经纬网格数据。
2 对流初生判别模型构建
数据集的构建是开展对流初生判别的基础,为此本文综合使用了葵花8/9号卫星红外通道亮温数据和石家庄天气雷达组合反射率。通过积云单体识别和积云目标跟踪方式,建立了对流单体数据集; 基于数据集,结合天气雷达组合反射率开展了对流初生样本筛选,挑选出对流单体数据集中的初生对流,开展特征分析; 利用挑选出来的因子构建了基于随机森林的对流初生判别模型,实现对流初生判别,具体算法技术路线见图2。
2.1 对流单体识别
2.1.1 积云单体识别
积云目标的识别和提取是开展对流初生识别的前提。已有研究在积云目标的识别过程中,通常采用阈值法剔除掉晴空、卷云以及成熟的对流单体,然后将剩余的非成熟的积云单体作为潜在研究云体,对其进行跟踪(李五生等,2014; Lee et al.,2017)。这样可以极大地缩短计算时间,但是由于卷云、成熟积云和潜在积云单体之间的界限比较模糊,在实际使用过程中会出现将卷云和成熟云剔除后,剩余的潜在研究云体较零碎的情况,极大地增加了跟踪难度; 且同一片云体中可能存在多个积云单体,目前的算法也未针对该问题进行探究和讨论。因此,本文在积云跟踪和识别的过程中,对算法进行了改进和调整,具体如下:1)针对石家庄地区进行潜在研究云体判别阈值的本地化调整,对云顶亮温进行统计分析,使得设定的阈值更适用于石家庄地区; 2)使用分水岭算法,根据云顶亮温对积云单体进行分割,将同一片云区内的不同单体合理划分开,以划分出来的单体为基本单元,而后统计每个基本单元中卷云面积所占的比例,以此作为判断该单体是否作为潜在研究对象,避免卷云剔除过程中造成单体破碎; 3)在积云跟踪的过程中,以分水岭算法划分出来的单体为研究对象,为了减少对流跟踪丢失的情况,在跟踪过程中对后续时刻不再对卷云或成熟单体进行判别。
图12022年6月26日08时(世界时,下同)雷达组合反射率强度(填色,单位:dBZ; 白色圆形区域为雷达扫描范围):(a)质控前;(b)质控后
Fig.1Intensity of radar composite reflectivity (shadings, units:dBZ) at 0800 UTC on June26, 2022 (the white circular area represents the radar scanning range) : (a) before quality control; (b) after quality control
图2对流初生判别算法技术路线图
Fig.2Technical roadmap of the convective initiation discrimination algorithm
在进行卷云和晴空判别时,本文采用Lee et al.(2017)已有较好应用效果的算法,主要使用到的参数包括IR10.4 μm通道亮温、IR12.4 μm通道和IR10.4 μm通道亮温差(brightness temperature difference,BTD)以及[(IR8.6 μm-IR10.4 μm)-(IR10.4 μm-IR12.4 μm)]三通道亮温差(triple temperature difference,TTD)等。针对石家庄地区,对这些特征量进行统计分析,给出了不同亮温和亮温差的概率密度分布(图3),并选择其中的拐点作为判别阈值。最终设定石家庄地区的潜在研究云体判别条件如下:1)IR10.4 μm亮温低于275 K; 2)(IR12.4 μm-IR10.4 μm)亮温差BTD高于-2.5 K; 3)三通道亮温差TTD[(IR8.6 μm-IR10.4 μm)-(IR10.4 μm-IR12.4 μm)]高于-4.5 K。其中,IR10.4 μm通道为大气窗区,当没有云遮挡时,其亮温直接反映地表温度,因此低值通常为云区。(IR12.4 μm-IR10.4 μm)亮温差受云厚度影响大,云越薄,其数值越低,因此选取高于某阈值作为条件,可以剔除较薄的云。三通道亮温差与云顶相态相关,冰云的值较大,云体发展较为旺盛,液态云的数值相对较小,云体发展高度相对较低。最终选取能够同时满足以上3个条件的云体作为潜在的对流单体研究对象。其中,标准1对应图3a左侧区域,标准2对应图3b右侧区域,标准3对应图3c右侧区域。
图4给出了2021年8月10日01时的真彩色卫星云图以及3个潜在研究云体判别指标的填色图。图4a为真彩色增强图,可以明显看出大量云体紧密连接在一起,如果使用阈值法进行判断,那么很容易将所有云体判定为一个整体。图4b为IR12.4 μm通道和IR10.4 μm通道亮温差,红色线条为-2.5 K等值线。图4c为三通道亮温差,红色线条为-4.5 K等值线。图4d为红外窗区波段图像。图4显示,云图内部存在大量的低温区域,即存在不同云体。图4d中的红色和绿色轮廓均为IR10.4 μm亮温的判别阈值轮廓,红色和绿色均为分割后的云体,但绿色为不能满足潜在研究云体标准的云体,故不再进行跟踪。图4d中的紫色点线为多目标跟踪算法获得的积云运动轨迹。
图3石家庄地区卫星参数概率密度分布:(a)10.4 μm亮温;(b)(12.4 μm-10.4 μm)亮温差;(c)三通道亮温差
Fig.3Probability density distributions of satellite-derived parameters in the Shijiazhuang region: (a) 10.4 μm brightness temperature; (b) brightness temperature difference (BTD) between 12.4 μm and 10.4 μm; (c) triple temperature difference (TTD)
图42021年8月10日01时的卫星真彩色云图(a)、IR12.4 μm和IR10.4 μm通道亮温差(b; 单位:K; 红色轮廓为-2.5 K等值线,暖色区域为满足标准2的范围)、[(IR8.6 μm-IR10.4 μm)-(IR10.4 μm-IR12.4 μm)]三通道亮温差(c; 单位:K; 红色轮廓为-4.5 K等值线,暖色区域为满足标准3的范围)、IR10.4通道亮温(d; 单位:K; 紫色线条为跟踪算法识别的运动轨迹,每个点为逐10 min的质心位置)
Fig.4Satellite imagery at 0100 UTC on August 10, 2021: (a) true-color satellite image; (b) brightness temperature difference between 12.4 μm and 10.4 μm (units:K; red contours denote the-2.5 K isolines, with warm-colored areas indicating regions satisfying Criterion 2) ; (c) triple temperature difference (units:K; red contours mark the-4.5 K isolines, with warm-colored areas representing regions meeting Criterion 3) ; (d) cumulus cloud identification and tracking results (units:K; purple lines indicate motion trajectories identified by the tracking algorithm, with each point representing the centroid position at 10-minute intervals)
2.1.2 积云目标跟踪
采用分水岭算法进行云体分割(Senf et al.,2018),分割仅对IR10.4 μm亮温通道进行。在分割后再统计云体中每个像素是否满足潜在研究对象的3条标准,并将之与雷达组合反射率产品进行综合对比,选取潜在研究云体比例≥30%的云团作为研究目标,对其进行跟踪,以获得积云整个生命周期的位置和时间信息。
在进行云团分割时,基于10.4 μm红外通道亮温,分水岭划分阈值选取275~245 K,划分间隔设定为10 K。先以275 K亮温等值线为初始轮廓,并在该范围内寻找云顶温度低于265 K区域,作为掩膜中的种子(分水岭算法中所谓的注水点),根据掩膜中种子位置对图像上其他的像素点依据分水岭算法规则进行判断,并对每个像素点的区域归属进行划定,直到处理完图像上所有像素点,实现每一个积云单体的划分。重复该过程,在划分出来的单体中寻找温度低于255、245 K区域,直至将所有单体划分完毕。
单体云团划分结束后,利用上一节中设定的潜在研究对象标准,分别统计每个云团中满足标准的云体比例,占比小于30%的云体判定为浅薄云体(图4d中绿色轮廓圈出的云体),不再对其进行跟踪研究。对筛选出来的潜在积云研究对象,使用多目标追踪法进行跟踪(Heikenfeld et al.,2019)。追踪时,先提取其前后相邻时刻积云单体的位置和面积信息,使用匈牙利追踪算法寻找出当前时刻积云目标在相邻时刻众多积云目标中对应的积云单体。匈牙利追踪算法是一种在多项式时间内求解任务分配问题的组合优化算法,通过对比不同时刻积云单体位置和面积信息,选取相邻时刻两幅图中最相似、移动距离最短、全局匹配最优的两个积云单体进行互相匹配,实现多积云目标跟踪。在计算过程中使用了Tobac1.2工具包,多目标跟踪效果如图4d所示。由图4d可见,匈牙利追踪算法可以实现对不同单体的移动路径进行准确的跟踪定位。
2.2 对流初生数据集构建
2.2.1 对流初生标准
本文采用Roberts and Rutledge(2003)对对流初生(convective initiation,简称CI)的定义,即为多普勒天气雷达第一次监测到由对流云产生的反射率因子≥35 dBZ时的对流云团。由于葵花8/9号卫星的水平分辨率为2 km,单个像素的面积为2 km×2 km,目前算法对单个像素难以进行有效的跟踪和识别,所以本文仅选取反射率因子≥35 dBZ且雷达观测回波面积大于等于4 km2的单体进行研究。
进行判别时,需要将雷达回波和卫星资料进行匹配,统计每个对流单体生命周期内对应单体轮廓的回波强度。由于本文主要针对积云初生开展研究,在进行样本选取时需要排除成熟对流云团的影响,所以这里选取云顶亮温小于245 K为成熟对流云团标准,仅研究初始时刻云顶亮温高于245 K的样本。为了使挑选的对流单体更为完整,在研究过程中仅选取生命周期超过60 min的个例作为积云特征研究对象。将所有单体的移动路径和对应的雷达组合反射率数据进行匹配,根据其最大反射率是否大于35 dBZ将其分为发生对流初生和没有发生对流初生两类。对于发生了对流初生的积云单体,记录其在生命周期中最大组合反射率首次达到35 dBZ的时间。图5给出了2021年8月9日23时至10日01时的积云追踪过程以及对应的雷达回波图,其中绿色轮廓表示卷云或成熟对流云团等不参与后期样本筛选的云体,红色轮廓表示逐10 min的积云单体移动趋势。可见,筛选出来的积云单体与回波非常吻合。图中的数字代表积云个例代号,由于绘图时仅标识出筛选后的云团,所以代号不连续。
对2021—2022年夏季所有时刻的单体进行识别跟踪,剔除了积云生命周期内移动范围较大、活动区域超出雷达观测范围的单体。例如,8月9日23时35和38号单体从雷达探测范围内移出,致使无法探测其后续发展情况,故这2个样本就被剔除了。经过多次筛选后,共获得748个对流生命周期,其中431次个例最终回波强度超过35 dBZ; 记录其中组合反射率首次达到35 dBZ时刻为对流初生的时刻。
2.2.2 对流初生特征选择
为了尽可能实现白天、夜晚对对流初生的预报,在筛选对流初生判据因子时参考了Zhuge and Zou(2018)给出的方法,即挑选红外波段观测因子,各因子的物理意义如表1所示。
将收集到的对流初生个例进行统计,以第一次出现35 dBZ的时刻为对流初生时刻(CI Time),统计得到石家庄对流初生时各因子的趋势分布(图6)。图6a给出了组合反射率的变化趋势,回波在达到35 dBZ后部分单体呈现略微下降趋势。由图6还可见,对流从发展到对流初生的过程中,10.4 μm通道云顶温度呈现明显的下降趋势,6.2 μm通道亮温变化则不明显,通道7.3 μm和10.4 μm亮温差、12.4 μm和10.4 μm亮温差以及三通道亮温差均呈现上升趋势。因此,研究选取因子的特征参数具备一定的物理意义,能够表征石家庄对流单体的发展变化趋势。尽管选取因子的中位数有明显的上升、下降趋势,但实际的散点数据分布仍然较为分散,如果只是简单选取阈值法进行判别容易造成误判,因此本文继续使用随机森林法完成对流初生判别的模型建立。
表1对流初生判据因子
Table1Convective initiation discriminant factors
图52021年8月9日23时—10日00时30分的IR10.4 μm通道云顶亮温(填色,单位:K)和潜在积云单体跟踪过程(a、c、e、g)和雷达组合反射率(b、d、f、h; 填色,单位:dBZ)(紫色线条为跟踪算法识别的运动轨迹,每个点为逐10 min的质心位置; 红色线条为对应的逐10 min积云轮廓,其中颜色越深,越接近当前时刻):(a、b)9日23时;(c、d)9日23时30分;(e、f)10日00时;(g、h)10日00时30分
Fig.5(a, c, e, g) Cloud-top brightness temperature (shadings, units:K) from the IR10.4 μm channel and the tracking process of potential cumulus cloud, and (b, d, f, h) composite radar reflectivity (shadings, units:dBZ) from 2300 UTC on August 9 to 0030 UTC on August 10, 2021 (Purple lines indicate motion trajectories identified by the tracking algorithm, with each point representing the centroid position at 10-minute intervals.Red contours represent the cumulus cloud boundaries, accumulated every 10 minutes, with darker colors indicating closer proximity to the current moment.Panels correspond to different timestamps) : (a, b) 2300 UTC on August 9; (c, d) 2330 UTC on August 9; (e, f) 0000 UTC on August 10; (g, h) 0030 UTC on August 10
图6对流初生判别因子变化趋势盒须图(CI Time为对流单体首次出现大于35 dBZ回波的时刻):(a)组合反射率(单位:dBZ);(b)IR10.4 μm通道亮温(单位:K);(c)IR6.2 μm通道亮温(单位:K);(d)IR7.3 μm和IR10.4 μm通道亮温差(单位:K);(e)IR12.4 μm和IR10.4 μm通道亮温差(单位:K);(f)三通道亮温差(IR8.6 μm和IR10.4 μm通道亮温差减IR10.4 μm和IR12.4 μm通道亮温差; 单位:K)
Fig.6Boxplot of convective initiation discriminant factors (CI Time denotes the moment when the convective cell first exhibits a radar echo exceeding35 dBZ) : (a) composite reflectivity (units:dBZ) ; (b) brightness temperature of the10.4 μm channel (units:K) ; (c) brightness temperature of the6.2 μm channel (units:K) ; (d) brightness temperature difference between the7.3 μm and 10.4 μm channels (units:K) ; (e) brightness temperature difference between the12.4 μm and 10.4 μm channels (units:K) ; (f) three-channel brightness temperature difference (8.6 μm-10.4 μm brightness temperature difference minus 10.4 μm-12.4 μm brightness temperature difference; units:K)
2.3 对流初生判别模型构建
使用随机森林算法对挑选出来的样本进行二分类建模。随机森林算法是一种将多个决策树加以集合的算法,能够极大地增强模型的泛化能力(Breiman,2001)。首先将样本分为训练集和测试集。选用每月1—24日的对流为训练集、25—31日的样本为测试集。以表1中9个因子及其与上一时刻的差异作为模型的输入; 模型的输出为积云单体后续组合反射率是否达到35 dBZ。
经测试,设置随机森林最大深度为5,获得的训练及测试结果如表2所示。经统计,训练集预报命中率为97%(305/315)、虚警率为17%(64/369),测试集命中率为92%(107/116)。虽然模型的虚警率为31%(49/156),表明模型存在一定的过拟合,后续还要考虑其他因素来降低过拟合,但97%的训练集预报命中率和92%的测试集预报命中率,都表明本文的建模对石家庄地区的对流初生预报具备了一定的能力。
3 对流初生模型的应用
为了对模型的效果进行直观展示,本节使用训练好的模型对测试集中的个例进行分析。这里给出了2021年8月29日04时30分(图7)和2022年6月29日06时30分(图8)的预报结果,其中2021年8月29日的个例为孤立的对流单体发展成为强对流的过程,2022年6月29日的情况相对复杂,预报时已出现大量的成熟单体。图中黑色线条轮廓框选的是成熟云体或者被剔除的卷云; 红色和蓝色为模型输出的结果,其中红色表示未来会发展成为成熟的对流单体,蓝色表示未来不会发展为成熟的对流单体; 红色和蓝色虚线为利用实际卫星云图追踪获得的对流单体未来的位置轮廓信息。
图7a为基于葵花卫星预报的结果,对应时刻及后续1 h的雷达回波见图7b、7c和7d。由图7a可见,模型预报出15、19和43号单体会发展成为强对流,而对应的雷达图中,除43号单体已出现回波外,15和19号单体均尚未出现,但是在05时,即半小时后,15和19号单体均出现了强回波,与预报一致。模型预报不会发展的单体中,14号单体出现了微弱的回波,29、30、34号单体一直为较弱的回波,均没有发展起来,与预报也一致。这些单体实际的发展趋势与模型预报一致,证明了算法的有效性。同时,也可以看到,在15号单体左上方出现的回波,在04时30分被判断为卷云而没有进入模型,出现了遗漏。
2022年6月29日的天气过程更为复杂。06时30分雷达图上已出现大量的对流单体,算法预报出了6、11、12、13、14、17号单体未来将发展成为强对流。其中,单体13、14在后期消散,属于虚报; 单体6、11、12,其云顶亮温不高,在雷达回波上已经出现超过35 dBZ的回波,即预报初生时刻已经是成熟单体,能被准确识别出; 单体17在06时30分的回波图上尚无信息,而后发展成为强对流单体,单体3、7、15在后续的发展过程中一直没有发展成强对流,都与实际结果一致,证明该方法虽然存在虚报,但是在大部分情形下,仍然能够有效实现石家庄地区对流初生的预报。
总之,研究给出的对流识别标准和识别算法能够高效捕捉到相对孤立的积云单体,并能够有效判别该单体是否会发展成为强对流。同时,在相对复杂的天气系统发展过程中,该算法也能从相对密集的云团中间捕捉到正在发展中的积云单体,为对流发展预报提供了准确的信息,有利于提高对流天气预报的准确率。
4 结论和讨论
本文使用2021、2022年夏季天气雷达组合反射率和葵花8/9号卫星红外通道亮温开展石家庄地区对流初生判别研究,针对石家庄地区对流初生统计结果给出了相应的对流初生标准的阈值,使用每月1—24日的个例作为训练集,建立了基于随机森林算法的对流初生判别模型,使用每月25—31日的个例作为测试集,对算法的判别效果进行检验。主要结论如下:
表2模型预报结果二分法检验汇总
Table2Summary of the dichotomous test results for model predictions
图72021年8月29日的对流初生预报及雷达观测组合反射率(红色和蓝色轮廓均为04时30分识别结果):(a)04时30分的IR10.4 μm通道云顶亮温(填色,单位:K)及对流初生预报(红色轮廓为预报将要发生对流初生,蓝色轮廓为预报不会发生对流初生;(b)04时30分的雷达组合反射率(填色,单位:dBZ);(c)05时的雷达组合反射率(填色,单位:dBZ);(d)05时30分的雷达组合反射率(填色,单位:dBZ)
Fig.7Convective initiation forecasts and radar composite reflectivity observations on August 29, 2021 (red and green contours represent the identified convective regions at 0430 UTC) : (a) cloud-top brightness temperature (shadings, units:K) from the IR10.4 μm channel and convective initiation forecasts at 0430 UTC (red contours indicate regions forecasted for convective initiation, while blue contours denote regions where no convective initiation is expected) ; (b) radar composite reflectivity (units:dBZ) at 0430 UTC; (c) radar composite reflectivity (units:dBZ) at 0500 UTC; (d) radar composite reflectivity (units:dBZ) at 0530 UTC
1)在进行对流初生判别模型构建时,先对石家庄地区的卫星云图进行特征分析,选取适合石家庄地区的云体判别阈值,统计分离出的独立云团中满足潜在研究对象的云体占比,将独立云体整体作为剔除的基本单位,保证了云团的完整性,大大提升了积云跟踪的连续性,由此通过卫星资料识别出对流单体,获得石家庄地区对流单体数据集。
2)基于数据集对石家庄对流初生样本进行筛选,获得了748个积云单体生命周期样本,根据对流初生标准继续筛选出了431个对流初生样本,并开展特征分析。通过分析对流初生判别因子,发现在对流发展过程中10.4 μm亮温呈现下降趋势,12.4 μm和10.4 μm亮温差以及三通道亮温差TTD呈上升趋势,表明积云单体在发展成为强对流的过程中,云顶的积云有显著变化特征。这些为石家庄对流初生预报提供了理论基础,这些变化趋势为一线业务预报提供了对积云发展变化趋势判断的依据。
3)使用随机森林模型和红外波段积云特征及其对应特征变化建立了机器学习模型,实现了对积云单体是否会发生发展成为强对流的预报。在模型的建立和测试中,虽然有31%的虚警率,但测试集中预报的命中率达到了92%,说明模型对石家庄对流的发展趋势具备了相当的预报能力。效果分析表明,模型能有效区分出未来是否会发展成强对流的单体,且对孤立对流单体发展趋势的预报效果更好,能够在复杂的天气系统过程中识别并判断出将要发展成强对流的孤立单体信号,为强对流天气的短时临近预报提供了新的业务建设思路。
图82022年6月29日的对流初生预报及雷达观测组合反射率(红色和蓝色轮廓均为06时30分识别结果):(a)06时30分的IR10.4 μm通道云顶亮温(填色,单位:K)及对流初生预报(红色轮廓为预报将要发生对流初生,蓝色轮廓为预报不会发生对流初生);(b)06时30分的雷达组合反射率(填色,单位:dBZ);(c)07时的雷达组合反射率(填色,单位:dBZ);(d)07时30分的雷达组合反射率(填色,单位:dBZ)
Fig.8Convective initiation forecasts and radar composite reflectivity observations on June29, 2022 (red and green contours represent the identified convective regions at 0630 UTC) : (a) cloud-top brightness temperature (shadings, units:K) from the IR10.4 μm channel and convective initiation forecasts at 0630 UTC (red contours indicate regions forecasted for convective initiation, while blue contours denote regions where no convective initiation is expected) ; (b) radar composite reflectivity (units:dBZ) at 0630 UTC; (c) radar composite reflectivity (units:dBZ) at 0700 UTC; (d) radar composite reflectivity (units:dBZ) at 0730 UTC
在潜在积云目标判别的过程中,目前使用的阈值法还难以描述云顶亮温与雷达回波之间的复杂非线性关系,还难以准确划分卷云与积云,造成实际业务出现对流初生过程的漏报现象,后续的研究拟将机器学习算法进一步引入到卷云判别过程中,以降低对流初生的漏报率。此外,如何降低虚假预警率也是后续研究需要考虑的重点。

