自组织过程是指在没有外部条件的干扰下,一个系统从无序发展到有序的过程(
孟宪伟等,1994)。自组织在很多天气和气候系统中都起到了重要的作用。例如,热带低压发展成为热带风暴需要经历十分复杂的不同尺度、不同方向扰动云团的自组织(
余晖等,2017); 小涡旋的自组织会导致大涡旋加强,并最终导致强降水的发生(
漆梁波等,2011); 双涡自组织的发展会影响台风的形成(
滕代高等,2009)等。在云系的发展过程中,自组织也起着重要的作用。云团的合并是云系自组织的重要现象,小云团可以自发地聚集在一起,合并成大云团(
李春虎,2011;
Janssens et al.,2022)。云系的发展并不是由一次自组织过程完成的,而是经过多次自组织过程(
滕代高等,2009)。自组织过程会使云系变得更加有序(
段海霞等,2011)。在以往的研究中,常用信息熵来衡量系统的不确定性和无序度,信息熵越小,其有序度越高(
李煜斌等,2022)。
李鑫鑫等(2018)提出利用信息熵来研究中国日降水的不确定性,发现中国日降水量的信息熵呈现增加趋势,说明日降水的不确定性也在增加。
Vannitsem(2023)利用信息熵来判断气候变化对系统可预测性的影响,信息熵越小,说明系统的不确定性越小,系统的可预测性越高。
Li et al.(2019)基于信息熵量化大气对流的组织程度,信息熵越高,说明系统越呈现无序和无组织。因此,本文拟以信息熵来反映云系的自组织过程。
总云水含量(total cloud water content,TWC)是大气水资源的重要组成部分,对降水形成有重要的影响,是研究云系发展的重要参数(
刘菊菊等,2018;
杨文霞等,2018)。该因子常作为云系发展研究的主要变量,反映降水云系的演变过程。研究总云水含量信息熵的影响因素是研究云系发展的关键问题。大气可降水量、向上长波辐射、垂直气流速度、雷达回波等能够影响或反映降水云系的发展,所以选取这4个变量研究它们与总云水含量的关系(
Zhang et al.,2019;
Li and O'Gorman,2020;
Liu et al.,2022;
Guo et al.,2023;
孟泽华等,2023;
王黎俊等,2025)。在以往的研究中,常使用相关性去探究变量间存在的联系。尽管相关性的方法在有些时候确实提供了一些有用的结论,但是这并不能说明事物之间是否存在因果关系(
Silva et al.,2021)。Granger因果检验(
Granger,1969)是一种统计假设检验,用于确定一个时间序列是否有助于预测另一个时间序列,从而进一步判断变量间的因果关系。最初,Granger因果关系检验主要应用于经济领域,但在近年来,这种方法已成功用于检测许多气象和气候动力系统中的因果关系(
Salvucci et al.,2002;
Kodra et al.,2011; Cermak and Bodri,2018)。通过建立向量自回归模型,进一步分析变量间因果关系的传统线性Granger因果检验方法已经被广泛地应用于各个研究领域,但是它检测非线性因果关系的能力有限(
Shojaie and Fox,2022)。为了处理非线性的问题,
Hiemstra and Jones(1994)提出了一种非参数检验的统计方法,揭示了股票收益与交易之间的非线性因果关系。为了避免H-J检验存在过度拒绝的问题,
Diks and Panchenko(2006)进一步提出更稳定可靠的
Tn统计量。
Liang(2014)提出了Liang-Kleeman信息流的方法,通过一个时间序列流向另一个时间序列的信息的时间速率衡量两个变量之间的因果关系,这种方法不仅在线性和非线性情况下均适用,还量化了变量间的因果关系(
蔡琳等,2022)。
许多研究仅从时域的角度分析变量间存在的联系。本文拟从时域和频域两个角度,探究总云水含量信息熵在不同尺度下的影响因素。首先,利用小波相干,得到TWC信息熵与协变量信息熵的局部相干特征,并得到影响TWC信息熵变化的最佳解释因子; 其次,通过小波分解,得到变量在不同时间尺度的子序列,捕获不同时间尺度的分层特征; 然后,对不同时间尺度的子序列构建VAR(vector autoregression)模型,进一步分析变量间存在的线性Granger因果关系; 最后,通过Liang-Kleeman信息流的方法,得到不同时间尺度上变量间的定量因果关系。
1 资料和方法
1.1 研究区域和数据
本文选取2020年10月3日00—24时(世界时,下同)的一次降水云系发展过程进行研究。考虑到研究数据的完整性和可获取性,运用 Weather Research and Forecasting(WRF)模式结果数据,并初步验证了数据的可靠性。对云系的发展进行跟踪,提取时间间隔为15 min,空间分辨率为6 km×6 km的格点数据。其中,10月3日00:00记作时间1,00:15记作时间2,······,23:45记作时间96。在研究中,通过雷达回波确定云系的位置。如图1所示,该云系从内蒙古中部开始生成,不断地向东部移动和发展,最后在黑龙江和吉林上空形成成熟的降水云系并造成降水。
本文的研究变量为700 hPa高度的总云水含量、雷达回波、大气可降水量、向上长波辐射和垂直气流速度。以总云水含量为主要研究变量,以雷达回波、大气可降水量、向上长波辐射和垂直气流速度为协变量。将各研究变量及其信息熵以不同的符号表示,其基本信息如表1所示。以雷达回波阈值大于等于9 dBZ为标准,提取满足阈值条件格点的总云水含量、大气可降水量、向上长波辐射和垂直气流速度数据。
1.2 研究方法
1.2.1 信息熵
信息熵是测量系统不确定性程度的指标,信息熵越大代表系统内部越紊乱; 信息熵越小代表系统内部越稳定。本文通过信息熵研究总云水含量的无序度,从而进一步研究云系在发展过程中的混沌程度。
设
X是一个离散型随机变量,分布律为
p(
x)=
P(
X=
x),样本空间为
Z,则该随机变量的信息熵(
李鑫鑫等,2018)定义为:
(1)
其中:H(X)代表信息熵;p(x)为事件x发生的概率;。每一个系统有且仅有一个信息熵。
图12020年10月3日02:45(a)、08:45(b)、17:45(c)和23:45(d)的云系发展情况(阴影表示反射率,单位:dBZ)
Fig.1Development of the cloud system at (a) 0245 UTC, (b) 0845 UTC, (c) 1745 UTC, and (d) 2345 UTC on October 3, 2020 (shadings indicate the reflectivity, units:dBZ)
表1研究变量及其信息熵
Table1Study variables and their corresponding information entropy values used in this study
1.2.2 小波相干分析
小波相干(wavelet transform coherence,WTC)可用于分析两个时间序列在时频域中的相干性,从而量化两个时间序列的协方差大小,小波相干系数等价于时频域中的局部相关系数。时间序列
X和
Y的小波相干系数(
Zhang et al.,2022)可以表示为:
(2)
其中:S为平滑算子;s为尺度;τ为时间;和分别是时间序列X和Y的小波变换;为两个时间序列的交叉小波变换。小波相干系数的取值在0~1。通过计算小波影响锥之外的显著相干面积百分比(percent area of significant coherence,PASC)以及平均小波相干(average wavelet transform coherence,AWC)来定量评估因子对响应变量的解释能力。
1.2.3 线性Granger因果检验
通过建立向量自回归模型来推断变量间是否存在Granger因果关系。线性Granger因果关系定义如下:假设存在严格平稳的双变量时间序列{
Xt,
Yt,
t≥1},若
Xt对
Yt的预测有解释作用,则称
Xt是
Yt的Granger原因; 若
Yt对
Xt的预测有解释作用,则称
Yt是
Xt的Granger原因。对于研究变量时间序列
Yt和
Xt,建立如下向量自回归模型(
刘华军和何礼伟,2016):
(3)
(4)
其中:ε1t、ε2t为残差序列;n、m、p和q为滞后阶数;a、b、c和e是被估计参数。
1.2.4 Liang-Kleeman信息流
为了定量地展现变量之间的因果关系,
Liang(2014)提出了信息流的思想,通过从一个时间序列流向另一个时间序列的信息的时间速率来衡量它们之间的因果关系。其基本原理如下:
设有两个时间序列分别为
X1和
X2,信息从序列
X2流向
X1的速率的计算公式(
Liang,2014)为:
(5)
其中:Cij代表的是Xi和Xj的协方差; Ci,dj代表的是Xi和的协方差; 是的欧拉前差近似。如果T2→1=0,则认为时间序列X2不是X1的因; 如果不为0,则认为两个时间序列存在因果关系。如果为正值,意味着X2能使X1更加不确定; 如果为负值,意味着X2能使X1更稳定。因果关系的强度由|T2→1|决定,与正负号无关。
2 总云水含量的概率特征
2.1 总云水含量的概率分布
根据雷达回波,对2020年10月3日00—24时的一次降水云系发展过程进行分阶段研究。将云系的发展分为4个阶段,第一阶段为云的生成阶段,时间从1到12(00:00—02:45),第二阶段为云的发展阶段,时间从12到36(02:45—08:45),第三、四阶段为云的成熟阶段,其中第三阶段的时间从36到72(08:45—17:45),第四阶段的时间从72到96(17:45—23:45)。
根据不同阶段的划分,分别给出总云水含量的概率密度分布(图2)。从概率密度分布和基本统计特征可以看出,在第一阶段,总云水含量的总体分布是单峰、左偏的,其分布比正态分布更陡峭。在第二阶段,总云水含量的偏度为-0.04,峰度为-0.12,峰度和偏度都接近0,因此可以认为该阶段总体分布是基本对称的,峰态近似服从正态分布。在第三、四阶段,总云水含量的总体分布是右偏、单峰的,第三阶段的峰度比第四阶段的峰度大,因此第三阶段总云水含量的分布更陡峭。随着云系的发展,总云水含量的均值在不断地增大,在第一阶段,总云水含量的均值为2.12,到第四阶段,总云水含量的均值为2.62,与第一阶段相比增加了0.5。第一阶段的总云水含量的方差最小、为0.16,第三阶段的总云水含量的方差最大、为0.46,说明第一阶段总云水含量的离散度最小,第三阶段总云水含量的离散度最大。
图2总云水含量在00:00—02:45(a)、02:45—08:45(b)、08:45—17:45(c)和17:45—23:45(d)四个阶段的概率密度分布
Fig.2Probability density distributions of TWC (total cloud water content) during the following periods: (a) 0000—0245 UTC; (b) 0245—0845 UTC; (c) 0845—1745 UTC; (d) 1745—2345 UTC
2.2 总云水含量信息熵的时变特征
根据信息熵计算公式,将每一个时间点提取的数据作为一个序列进行计算,得到各研究变量的信息熵。以每个时间点提取到的云量格点数来判断云系的面积,提取到的格点数越多,说明云系面积越大。由图3可知,在第一阶段,由于云系正在生成的过程中,云系由零散的小云块组成,云系面积较小,提取到的云量格点数也较少,所以导致计算出来的信息熵也相对较小。在第二阶段,云系处于发展过程,云系中小云块不断生成,云系面积慢慢增大,提取到的云量格点数也开始增多,大量的小云块导致云系混沌程度增大,因此总云水含量信息熵也随之增大。在第三和第四阶段,随着云的自组织过程开始进行,小云块合并成较大的云块,总云水含量信息熵总体趋势开始减小,但是因为云系的发展要经过多次云团的生成和合并,所以第三、四阶段的信息熵呈现波动式的递减。一般来说,云系自组织效果越好,云系内部就越有序,云系的信息熵也会越小。
图3总云水含量信息熵(IETWC)的时序图(黑色虚线用于区分阶段,Ⅰ 代表第一阶段,Ⅱ 代表第二阶段,Ⅲ 代表第三阶段,Ⅳ 代表第四阶段)
Fig.3Time series plot of the IETWC.The black dotted lines mark the division of stages:Stage Ⅰ (first) , Stage Ⅱ (second) , Stage Ⅲ (third) , and Stage Ⅳ (fourth)
3 总云水含量信息熵的多尺度分析
3.1 基于小波相干的IETWC局部相干
使用小波相干分析的方法来研究不同时频域下协变量信息熵对总云水含量信息熵的影响。由图4可以看出,总云水含量信息熵与其他因子的信息熵存在明显的相干性,但在不同时间尺度上又存在差异。由于本文数据的时间分辨率为15 min,所以在时频尺度为n时,对应的时间为15n min,即。小波相干的结果表明,在时频尺度小于8(即2 h)时,总云水含量信息熵与大气可降水量信息熵具有较为紊乱的箭头指向,说明此时的相干性比较复杂;在时频尺度大于8(即2 h)时,总云水含量信息熵与大气可降水量信息熵的相干性比较稳定且显著,箭头方向基本为右,呈明显的正相关关系。在时频尺度小于16(即4 h)时,垂直气流速度信息熵与总云水含量信息熵具有显著的正相干; 在时频尺度大于16(即4 h)时没有明显的相干关系。在时频尺度小于16(即4 h)时,总云水含量信息熵与向上长波辐射信息熵存在显著的正相干; 在时频尺度大于16(即4 h)时呈负相干。在时频尺度小于4(1 h)时,总云水含量信息熵与雷达回波信息熵呈正相干; 在时频尺度在4~16(即1~4 h)时相干性较为复杂; 在时频尺度大于16(即4 h)时呈显著的正相干。
计算出的PASC和AWC如表2所示。WTC结果表明,大气可降水量信息熵与总云水含量信息熵的一致性最高,AWC的值为0.57,PASC的值为36.14%,因此大气可降水量信息熵可以作为解释总云水含量信息熵变化的最佳变量,其次分别为向上长波辐射信息熵、雷达回波信息熵和垂直气流速度信息熵。
3.2 云微物理量信息熵的多尺度分解
从第3.1节的结果可以知道,总云水含量信息熵与协变量信息熵的小波相干结果在不同的时间尺度上存在明显差异。因此,使用Sym5小波对原序列进行5层分解。可以提取到1 h时间尺度(D1)、2 h时间尺度(D2)、4 h时间尺度(D3)和8 h时间尺度(D4)的细节分量,从而进一步探究变量间的多尺度关系。小波分解结果如图5所示。
4 总云水含量信息熵的多尺度因果分析
4.1 平稳性检验
分别对子序列进行ADF检验(augmented Dickey-Fuller test)。由表3可知,时间尺度为1 h、2 h和4 h的所有云微物理量信息熵子序列的ADF检验的P值都小于0.05,因此可以认为,这些时间尺度的子序列都是平稳的。时间尺度为8 h的子序列中,IETWC、IEPW、IEDBZ和IEOLR的P值都小于0.05,虽然IEOMG子序列的P值为0.054,大于0.05,但在0.1显著性水平下,仍然可以认为序列是平稳的。因此,在序列平稳的条件下,可以进一步进行因果检验。
图4总云水含量信息熵与其他云微物理量信息熵的小波相干(WTC;颜色代表相干系数,粗黑线代表红色噪声为0.05显著性水平;箭头方向代表相干性方向,箭头向左代表负相干,箭头向右代表正相干):(a)IETWC-IEPW;(b)IETWC-IEOMG;(c)IETWC-IEOLR;(d)IETWC-IEDBZ
Fig.4WTC between the IETWC and information entropy of covariates.Colors indicate the coherenceintensity; thick black contours denote the 0.05 significance level against red noise.Arrowsindicate the phase relationship, with left-pointing arrows representing negative correlation and right-pointing arrows indicating positive correlation: (a) IETWC vs IEPW; (b) IETWC vs IEOMG; (c) IETWC vs IEOLR; (d) IETWC vs IEDBZ
表2总云水含量信息熵与协变量信息熵的PASC和AWC
Table2PASC and AWC values between the information entropy of total water content and that of covariates
4.2 基于VAR模型的多尺度线性Granger因果
在子序列表现平稳的情况下,分别对不同时间尺度下的云系微物理量信息熵建立VAR模型进行线性Granger因果关系检验。由表4可知,在时间尺度为1 h的子序列中,IETWC与IEPW存在单向的因果关系,且IETWC是IEPW的因。在0.05显著性水平条件下,IEOLR是IETWC的因,在0.1显著性水平条件下,IETWC是IEOLR的因。而IETWC与IEDBZ、IEOMG均不存在因果关系。在时间尺度为2 h的子序列中,IETWC与IEOLR、IEPW、IEDBZ、IEOMG的Granger因果检验的P值都小于0.05,因此可以认为IETWC与它们均存在双向的因果关系。在时间尺度为4 h的子序列中,IETWC与IEPW、IEOMG均存在双向的因果关系。同时,在0.1显著性水平时,可以认为IETWC与IEDBZ之间也存在因果关系,且IETWC是IEDBZ的因。而IEOLR与IETWC之间不存在因果关系。在时间尺度为8 h的子序列中,IETWC与IEPW存在双向的因果关系,IETWC与IEOMG存在单向的因果关系,且IETWC是IEOMG的因。IETWC与IEDBZ、IEOLR之间不存在因果关系。
4.3 基于Liang-Kleeman信息流的多尺度定量因果
Liang-Kleeman信息流结果如图6所示,可以看出,在1 h的时间尺度上,IEPW与IETWC存在单向的因果关系,与IEOLR存在双向的因果关系,此时IEOLR→IETWC的信息流速率最大,为-0.133 6。在2 h的时间尺度上,IETWC与其他4个云微物理量信息熵均存在双向的因果关系,IETWC→IEOLR的信息流速率最大、为0.035 5。在4 h的时间尺度上,IEOMG和IEPW均与IETWC存在双向的因果关系,其中IETWC→IEPW的信息流速率高达0.419 0,IEPW→IETWC的信息流速率高达-0.381 5。在8 h的时频尺度上,IETWC与IEPW存在双向的因果关系,且IETWC→IEPW的信息流流速高达0.602 8,IEPW→IETWC的信息流速率高达-0.586 8。
图5D1—D4(1—4)时间尺度上信息熵的小波分解:(a)IETWC;(b)IEDBZ;(c)IEPW;(d)IEOLR;(e)IEOMG
Fig.5Wavelet decomposition of information entropy (D1—D4:representing decomposition levels 1 to 4) : (a) IETWC; (b) IEDBZ; (c) IEPW; (d) IEOLR; (e) IEOMG
可以发现,在小时间尺度上,IEOLR与IETWC之间的信息传递速率较快,因此可以认为,在小时间尺度上,IEOLR是IETWC最主要的影响因子; 在较大时间尺度上,IEPW与IETWC之间的信息传递速率较快,因此可以认为,在较大时间尺度上,IEPW是IETWC最主要的影响因子。同时,在1 h、2 h、4 h和8 h这4个时间尺度上,IEPW与IETWC均存在因果关系。Liang-Kleeman信息流检验出来的结果与线性Granger因果检验得到的结果基本一致。
表3云微物理量信息熵不同时间尺度子序列ADF检验的P值
Table3P values of the ADF test for different time-scale subsequences of cloud microphysical quantity information entropy
表4时间尺度为1 h、2 h、4 h和8 h时的线性Granger因果关系
Table4Results of the linear Granger causality test at time scales of 1 h, 2 h, 4 h, and 8 h
5 结论
本文对中国东北地区的一次降水过程进行研究,选取总云水含量为主要研究变量,以及大气可降水量、雷达回波、向上长波辐射和垂直气流速度为协变量进行研究。首先,根据雷达回波将云系的发展分为4个阶段,研究总云水含量在不同阶段的概率分布特征,并通过计算总云水含量的信息熵来分析云系的自组织效果。其次,利用小波相干分析的方法,研究不同时频域下总云水含量信息熵与协变量信息熵的局部相干性特征,得到解释总云水含量信息熵变化的最佳变量。最后,利用小波分解方法将信息熵序列分解成不同时间尺度的分量,建立VAR模型并分析变量间存在的多尺度因果关系,再通过Liang-Kleeman信息流的方法量化因果关系的强度。主要结论如下:
1)在云系发展的不同阶段,总云水含量的概率分布特征存在显著差异。在第一阶段(云的生成阶段),总云水含量的分布是单峰、左偏的; 在第二阶段(云的发展阶段),总体分布是基本对称的,峰态近似服从正态分布; 在第三和第四阶段(云的成熟阶段),呈右偏、单峰分布,且第三阶段分布更为陡峭。总云水含量的信息熵先增大后减小。在云系的生成和发展阶段存在自组织和他组织过程,成熟阶段自组织过程较为明显。
2)WTC结果表明,大气可降水量信息熵可以作为解释总云水含量信息熵变化的最佳解释变量,其AWC的值为0.57,PASC的值为36.14%。其次,对总云水含量信息熵的影响程度从大到小分别为向上长波辐射信息熵、雷达回波信息熵和垂直气流速度信息熵。
3)在1 h时间尺度上,IEPW与IETWC之间存在单向因果关系,IEOLR与IETWC之间存在双向因果关系。在2 h时间尺度上,IETWC与其他4个协变量的信息熵均呈双向因果关系。在4 h的时间尺度上,IEOMG和IEPW都与IETWC表现出双向的因果关系。在8 h的时间尺度上,IETWC和IEPW之间存在双向因果关系。
4)在小时间尺度上,IEOLR与IETWC之间的信息传递速率较快,因此可以认为在小时间尺度上,IEOLR是IETWC最主要的影响因子; 在较大时间尺度上,IEPW与IETWC之间的信息传递速率较快,因此可以认为在较大时间尺度上,IEPW是IETWC最主要的影响因子。
图6在时间尺度为1 h(a)、2 h(b)、4 h(c)和8 h(d)的Liang-Kleeman信息流结果(符号*、**、***分别表示Liang-Kleeman信息流结果在显著性水平为0.1、0.05、0.01时显著)
Fig.6Liang-Kleeman information flow at time scales of (a) 1 h, (b) 2 h, (c) 4 h, and (d) 8 h.The symbol * indicates that the Liang-Kleeman information flow results are significant when the significance level is 0.1, ** indicates that the significance level is 0.05, and *** indicates that the significance level is 0.01