机器学习的原理及其在气候预测中的潜在应用

贺圣平，王会军，李华，赵家臻; HE Shengping; WANG Huijun; LI Hua; ZHAO Jiazhen

引 en

机器学习的原理及其在气候预测中的潜在应用

贺圣平^1,2

机构：

1. 南京信息工程大学气象灾害教育部重点实验室/气象灾害预报预警与评估协同创新中心,江苏南京 210044

2. 卑尔根大学地球物理研究所,挪威卑尔根 5020

×
，王会军^1,3,4

机构：

1. 南京信息工程大学气象灾害教育部重点实验室/气象灾害预报预警与评估协同创新中心,江苏南京 210044

3. 中国科学院大气物理研究所竺可桢-南森国际研究中心,北京 100029

4. 中国科学院气候变化研究中心,北京 100029

×
，李华^1,3

机构：

1. 南京信息工程大学气象灾害教育部重点实验室/气象灾害预报预警与评估协同创新中心,江苏南京 210044

3. 中国科学院大气物理研究所竺可桢-南森国际研究中心,北京 100029

×
，赵家臻¹

机构：

1. 南京信息工程大学气象灾害教育部重点实验室/气象灾害预报预警与评估协同创新中心,江苏南京 210044

×

1. 南京信息工程大学气象灾害教育部重点实验室/气象灾害预报预警与评估协同创新中心,江苏南京 210044；
2. 卑尔根大学地球物理研究所,挪威卑尔根 5020；
3. 中国科学院大气物理研究所竺可桢-南森国际研究中心,北京 100029；
4. 中国科学院气候变化研究中心,北京 100029；

Machine learning and its potential application to climate prediction

HE Shengping^1,2

Affiliation：

1. Collaborative Innovation Center on Forecast and Evaluation of Meteorological Disasters(CIC-FEMD)/Key Laboratory of Meteorological Disaster,Ministry of Education(KLME),Nanjing University of Information Science & Technology,Nanjing 210044 ,China

2. Geophysical Institute,University of Bergen and Bjerknes Centre for Climate Research,Bergen 5020,Norway

×
， WANG Huijun^1,3,4

Affiliation：

1. Collaborative Innovation Center on Forecast and Evaluation of Meteorological Disasters(CIC-FEMD)/Key Laboratory of Meteorological Disaster,Ministry of Education(KLME),Nanjing University of Information Science & Technology,Nanjing 210044 ,China

3. Nansen-Zhu International Research Centre,Institute of Atmospheric Physics,Chinese Academy of Sciences,Beijing 100029 ,China

4. Climate Change Research Center,Chinese Academy of Sciences,Beijing 100029 ,China

×
， LI Hua^1,3

Affiliation：

1. Collaborative Innovation Center on Forecast and Evaluation of Meteorological Disasters(CIC-FEMD)/Key Laboratory of Meteorological Disaster,Ministry of Education(KLME),Nanjing University of Information Science & Technology,Nanjing 210044 ,China

3. Nansen-Zhu International Research Centre,Institute of Atmospheric Physics,Chinese Academy of Sciences,Beijing 100029 ,China

×
， ZHAO Jiazhen¹

Affiliation：

1. Collaborative Innovation Center on Forecast and Evaluation of Meteorological Disasters(CIC-FEMD)/Key Laboratory of Meteorological Disaster,Ministry of Education(KLME),Nanjing University of Information Science & Technology,Nanjing 210044 ,China

×

1. Collaborative Innovation Center on Forecast and Evaluation of Meteorological Disasters(CIC-FEMD)/Key Laboratory of Meteorological Disaster,Ministry of Education(KLME),Nanjing University of Information Science & Technology,Nanjing 210044 ,China；
2. Geophysical Institute,University of Bergen and Bjerknes Centre for Climate Research,Bergen 5020,Norway；
3. Nansen-Zhu International Research Centre,Institute of Atmospheric Physics,Chinese Academy of Sciences,Beijing 100029 ,China；
4. Climate Change Research Center,Chinese Academy of Sciences,Beijing 100029 ,China；

通讯作者:

贺圣平,E-mail:hshp@mail.iap.ac.cn

DOI:10.13878/j.cnki.dqkxxb.20201125001

引用：贺圣平,王会军,李华,等,2021.机器学习的原理及其在气候预测中的潜在应用[J].大气科学学报,44(1):26-38.

Quote：He S P,Wang H J,Li H,et al.,2021.Machine learning and its potential application to climate prediction[J].Trans Atmos Sci,44(1):26-38.

全文
评论
参考文献
出版信息

目录contents

摘要Abstract
关键词Keywords
2 机器学习的原理
3 解析神经网络以及将其应用于气候预测的思路
4 深度学习之卷积神经网络及其回报东亚冬季气温实例
4.1 研究数据
4.2 建模方法
4.3 回报结果
5 总结与讨论
参考文献

摘要

经历了两次“人工智能寒冬”之后,机器学习于近十年再次进入大众视野,且有腾飞发展之势,已在图像识别和语音识别系统等实际应用方面取得了巨大成功。从已知数据集中总结关键信息和主要特征,从而对新数据做出准确的识别和预测,分别是机器学习的主要任务和主要目标之一。从这个角度看,将机器学习整合到气候预测的思路切实可行。本文,首先以线性拟合参数(即斜率和截距)调整为例,介绍了机器学习通过梯度下降算法优化参数并最终得到线性拟合函数的过程。其次,本文介绍了神经网络的构建思路以及如何应用神经网络拟合非线性函数的过程。最后,阐述了深度学习之卷积神经网络的框架原理,并将卷积神经网络应用到东亚冬季逐月气温的回报试验,并与气候动力模式的回报结果相比较。本文将有助于理解机器学习的基本原理,为机器学习应用于气候预测提供一定的参考思路。

Abstract

After two “Artificial Intelligence winters”,machine learning has become a subject of intense of media hype and come up in countless articles,showing a promising future.Machine learning has gained a big success in image recognition and speech recognition systems.Refining key message and dominant features from the train datasets and making accurate prediction on the never-seen-before datasets are the major task and the ultimate goal of machine learning,respectively.From this perspective,it’s feasible to integrate machine learning into climate prediction.Beginning with a simple example on finding the weights of a linear fitting,this study shows how machine learning updates weights through gradient descent algorithm and eventually obtains the linear fitting line.Next,this study illustrates the architecture of neural network and uses neural network algorithm to learn the true curve fitting a non-linear function.In the end,this study elaborates the architecture of deep learning such as convolutional neural network,and uses convolutional neural network model to hindcast winter monthly surface air temperature anomalies in East Asia.The results by deep learning are further compared with the hindcast by dynamical modelCanCM4i.This study will help to understand the fundamental of machine learning and provides insights how to integrate machine learning into climate prediction.

关键词

机器学习；神经网络；卷积神经网络；气候预测；东亚冬季气温

Keywords

machine learning ； neural network ； convolutional neural network ； climate prediction ； East Asian winter temperature

1956年,McCarthy et al.(1956)提出了人工智能的概念;三年之后,Samuel(1959)提出实现人工智能的方式——机器学习。随后,人工智能经历了两个腾飞的时代:即20世纪60到70年代和20世纪80年代。尽管如此,人工智能并未取得令人满意的成就,先后于20世纪70年代末、90年代初经历了两次“人工智能寒冬”。尽管人工智能的发展起伏跌宕,作为人工智能的一个分支和实现人工智能的一个途径,机器学习(尤其是算法的更新)的发展却从未间断,逐渐发展成一门涉及概率论、统计学、逼近论等的交叉学科。近年来,随着计算机硬件设施性能的显著提升、研究数据的大量增长且存储成本的大幅降低以及算法的明显改进,机器学习尤其是深度学习再次进入大众的视野并取得了一系列的成功。一些经过大量数据训练的机器模型能够对新数据做出精准的预测,如自动驾驶、图像识别、语音识别等都是机器学习的成功应用(Huntingford et al.,2019)。
人类一直致力于理解并预测世界的变化,其中最成功的例子就是数值天气预报,如今其对北半球500 hPa位势高度场3~5 d的预报技巧已高达90%以上(Bauer et al.,2015)。然而,季节尺度上的气候预测以及更长时间尺度的气候预估,依然是巨大的挑战(Hantson et al.,2016)。在深入理解气候系统变化机制的驱动下,地球系统的观测数据、再分析资料以及数值模拟数据在过去40 a里飞速增长。尤其是第五阶段(CMIP5)和第六阶段国际耦合模式比较计划(CMIP6),为气候变化、气候预测和气候预估研究提供了数千万亿字节量级的数据资源(Stockhause and Lautenschlager,2017)。如何从“大数据”中充分地提取有用的信息并获取新的知识,对传统分析方法构成了新的挑战。机器学习和人工智能则带来了新的契机。机器学习可以从地球系统“大数据”中发现并提取新的相互关联信号,比如某个关键区的海温信息可以提高陆地某区域未来数月的气候预测技巧;在此基础上,人工智能实现为社会提供极端天气和极端气候事件的自动化预警(Huntingford et al.,2019)。
如今,机器学习逐渐与气候预测和天气预报相结合,相关领域涌现了一大批创新性的研究成果。Ham et al.(2019)利用深度神经网络对ENSO指数构建了机器预测模型,结果显示深度学习预测模型对ENSO提前7~21个月的预测技巧高于当前大部分动力气候预测模型。浅层神经网络机器模型也可以较好地分辨中部型和东部型ENSO事件(Toms et al.,2020)。此外,机器学习也可以应用到天气预报业务中(门晓磊等,2019)。Weyn et al.(2019)利用卷积神经网络(深度学习)构建了500 hPa位势高度格点场的机器预报模型,其提前3 d的预报技巧明显胜过动力正压涡度模型,尽管其表现依然逊色于当前业务型的数值天气预报系统。卷积神经网络机器模型也可预测天气尺度的锋面系统(Lagerquist et al.,2019)。深度学习模型还可以在不给定任何阈值的情况下,自动识别极端天气事件(Liu et al.,2016)。此外,机器学习可以用来减小未来气候预估的不确定性(匡志远等,2020)。
随着气候变化及其负面影响的日益加剧(Prtner et al.,2019),提高气候预测的能力也变得愈加重要和急迫。然而,这对于当前的动力气候预测模型依然是一个严峻的挑战。机器学习,在高性能计算机、“大数据”和先进算法的支持下,为提高气候预测的技巧提高了新的思路和契机。本文将围绕梯度下降、神经网络的构建以及深度学习的框架简要介绍机器学习的基本原理;最后介绍深度学习应用到东亚冬季气温预测的实例。
1人工智能、机器学习与深度学习简介
20 世纪50年代,约翰·麦卡锡等发起了达特矛斯夏季人工智能研究计划(McCarthy et al.,1956),探讨自动计算机、神经网络等议题;“人工智能”的概念由此诞生。“人工智能”旨在赋予计算机“思考”的能力,是指实现计算机系统能够执行通常需要人类智力才能完成的任务的理论和开发。显然,“人工智能”是一个涵盖范围比较广的概念或者统称。早期的“人工智能”主要是通过硬编码实现,即基于人类已有的知识体系,人工设计代码程序,从而完成对人类具有挑战的任务。例如,IBM设计的电脑棋手“深蓝”,就是将国际象棋规则完全形式化后,再通过硬编码描述给计算机;“深蓝”于1997年5月11日打败了国际象棋世界冠军加里·卡斯帕罗夫。然而,随着实际应用要求的提高以及人类认知体系的局限性,硬编码的“人工智能”的瓶颈开始凸显:它并不能解决更为复杂的问题。为了弥补硬编码对人类认知体系要求较高的弊端,科学家提出了一种新的构建“人工智能”的思路,即实现计算机自动从大数据集中总结、归纳信息的特点,也就是机器学习。虽然机器学习依然需要通过编码来实现,但它有一个明显区别于传统硬编码方式的特点:在执行任务的初期,计算机并未给定解决该问题的具体规则(例如“深蓝”已知的国际象棋规则),而是采用大量的数据、通过某种算法不断地“训练”计算机,同时使用某一种损失函数衡量计算机的学习效果、并通过优化算法调整“训练”的方向;通过反复的迭代计算,最终使得计算机具备解决问题的最优方案或规则(即参数,见第二节)。这样,“训练”好的机器就可以投入到实际应用,如人脸识别、语音识别系统等都是机器学习的成果。可见,算法是机器学习的核心,神经网络就是其中的经典算法之一。而深度学习,就是利用层次更多(即深度的含义)神经网络实现机器学习。
2 机器学习的原理
机器学习可以分为监督学习、无监督学习和强化学习(Dougherty et al.,1995)。本文主要围绕监督学习展开讨论。监督学习的特点是,每一个“训练数据”都有明确的输出期望值(即“标签数据”)。为了简单明了地解释机器的“学习”过程,以最简单的线性回归为例,展示如何不断地“训练”机器、最终获取线性回归方程参数(即斜率θ₁和截距θ₂)的过程。构建一个线性函数:y=2.5x+3.5+δ(x=1,2,3,…,20);其中δ表示符合随机正态分布的噪音数据,x与y之间的映射关系如图1a的散点图所示。从机器学习的角度,x称为“训练数据”,y即为“标签数据”(表1)。
将“训练数据”x输入计算机,并随机地给定计算机任意两个初始参数即斜率 $θ_{1}^{0}$ 和截距 $θ_{2}^{0}$ 。由于计算机的目标是“学习”一种线性关系,因此对应输出的“预测值” $\hat{y}$ 应该满足 $\hat{y} = θ_{1}^{0} \times x + θ_{2}^{0}$ 。为了评估计算机的“学习”效果,即衡量 $\hat{y}$ 与y的差异,需引入一个代价函数,又称损失函数;此处选用均方根误差:
表1 “训练数据”称为x,“标签数据”y以及噪音数据δ
Table1 “Training data” denotes x the “label data” denotes y and “random noise data” denotes δ

\sum_{i = 1}^{m} {({\hat{y}}_{i} - y_{i})}^{2}

(1)

其中:m表示数据集的个数。由于“训练数据”x和“标签数据”y都是已确定的数据集,不确定的仅仅是参数θ₁和截距θ₂;因此,损失函数实际上是关于θ₁和θ₂的函数,记为f(θ₁,θ₂);为便于描述,将参数表述为向量的形式 $Θ (θ_{1}, θ_{2})$ 。换言之,“训练”机器的最终目标就转化为:调整参数 $Θ$ 、使得f( $Θ$ )的值达到最小。
根据导函数的原理,即f( $Θ$ )在某一点 $Θ^{0} (θ_{1}^{0}, θ_{2}^{0})$ 的导函数 $\nabla f (Θ)_{। (θ_{1}^{0}, θ_{2}^{0})}$ 表示f( $Θ$ )增加最快的方向,机器为了有效地朝着f( $Θ$ )的最小值方向“学习”,可以沿着导函数的反方向调整参数、得到新的参数 $Θ^{1}$ ( $θ_{1}^{1}, θ_{2}^{1}$ ),即:

Θ^{1} = Θ^{0} - α \times \nabla f (Θ)_{∣ θ^{0}}

(2)

若 $Θ^{1}$ 不是f( $Θ$ )达到最小值的参数,则继续沿着导函数的反方向调整参数、得到新的参数 $Θ^{2}$ ,即:

Θ^{2} = Θ^{1} - α \times \nabla f (Θ)_{∣ θ^{1}}

(3)

其中,α∈(0,1)称为“学习效率”。通过反复迭代上述计算过程,计算机将不断减小损失函数f( $Θ$ ),直至其小于某一临界值时,锁定参数 $Θ$ 。此时,计算机“学习”到的参数 $Θ (θ_{1}^{n}, θ_{2}^{n})$ (n表示最终的迭代次数)将使得“预测值” $\hat{y}$ 最优地逼近“标签数据”y。上述沿着导函数的反方向调整参数的过程称之为“梯度下降”法(Ruder,2016);类似调整参数的模块则称为“优化器”。
回到机器学习解决上述线性回归的问题,为了便于描述,将上述“预测值” $\hat{y}$ 、“训练数据”x、参数(θ₁,θ₂)以及“标签数据”y分别以矩阵的形式表示:
$\begin{matrix} \hat{Y} = (\begin{matrix} {\hat{y}}_{1} \\ {\hat{y}}_{2} \\ ⋮ \\ {\hat{y}}_{20} \end{matrix}) \\ X = (\begin{matrix} x_{1} & 1 \\ x_{2} & 1 \\ ⋮ & ⋮ \\ x_{20} & 1 \end{matrix}) \\ Θ = (\begin{matrix} θ_{1} \\ θ_{2} \end{matrix}) \\ Y = (\begin{matrix} y_{1} \\ y_{2} \\ ⋮ \\ y_{20} \end{matrix}) \end{matrix}$
因此,损失函数可表示为:

f (Θ) = \frac{1}{2 m} (X \cdot Θ - Y)^{T} (X \cdot Θ - Y)

(4)

其中:m为每一个数据集的个数,即20,常数1/2是为了后续求导函数的时候不再有多余的常量;损失函数的导函数则为:

\nabla f (Θ) = \frac{1}{m} X^{T} (X \cdot Θ - Y)

(5)

首先,随机给定计算机初始参数 $Θ^{0}$ (20,-20),与“训练数据”X和“标签数据”Y(表1)一起代入公式(4)和公式(5),可以求出损失函数及其导数:
$\begin{matrix} f (20, - 20) = 17934.65, \\ \nabla f (Θ)_{∣ Θ^{0} (20, - 20)} = {(\frac{\partial f}{\partial θ_{1}}, \frac{\partial f}{\partial θ_{2}})}_{∣ θ^{0} (20, - 20)} = \\ (2264.65,160.25) \end{matrix}$
同时,将机器的“学习”效率α设置为0.01,根据公式(2),机器将参数更新为:
$\begin{matrix} (θ_{1}^{1}, θ_{2}^{1}) = (20, - 20) - 0.01 \times (2264.65,160.25) = \\ (- 2.646, - 21.603) \end{matrix}$
机器通过以上的“学习”过程,不断地更新参数(θ₁,θ₂)(图1b),同时损失函数的值也持续减小(如图1c中红线)。经过约3 000次的迭代计算,参数(θ₁,θ₂)基本趋于稳定(图1b),表明损失函数已经逼近其最小值的点( $θ_{1}^{n}, θ_{2}^{n}$ ),同时该点也是损失函数导数最小的位置(即斜率最小)。将导函数f( $θ_{1}^{n}, θ_{2}^{n}$ )的临界值设置为1.0×10^-5,即当导函数的值小于该临界值后,机器就停止“学习”,并锁定此时的参数( $θ_{1}^{n}, θ_{2}^{n}$ ),即(2.50,3.53)。于是,机器最终“学习”到的线性拟合曲线为: $\hat{y}$ =2.50x+3.53(图1a:红线);基本符合“训练数据”x与“标签数据”y之间的线性关系(图1a:散点)。
当然,上述只是“训练”机器的过程。机器学习的最终目标是:用“训练”好的机器(即完成了参数的优化)针对机器从未接触过的新数据(通常称为“测试数据”)展开预测。将在第三节和第四节中详细阐述。
3 解析神经网络以及将其应用于气候预测的思路
线性回归是气候预测和气候变化研究中常见的方法。当然,不需要通过机器学习,也可以快速地计算线性回归函数。但是,在实际研究和应用过程中,经常面对的是大量的观测和数值模拟数据。由于气候系统的复杂性,数据之间可能存在某种非线性关系;上述基于线性关系构建的机器学习模型将失去作用。这时,深度学习则能发挥巨大的优势;而深度学习则是以神经网络为框架,通常包括一层输入层、若干隐藏层和一层输出层。每一个神经层都包含若干个神经元(实际上代表的是包含某一个具体数据的节点)。输入层负责接收“训练数据”或者“测试数据”,输出层负责导出“预测数据”。隐藏层的主要功能则是通过大量的参数、连接输入层和输出层。利用输出层的“预测数据”和已知的“标签数据”可以构建损失函数,再通过优化器减小损失函数并调整参数。当损失函数达到最小值的时候,则锁定参数,即完成机器的“训练”(见第2节)。此处的关键问题是:输入层、隐藏层和输出层之间是通过何种方式实现神经元之间的连接呢?答案是:矩阵的乘法。
图1 散点表示“训练数据”x与“标签数据”y的映射关系,红线表示机器学习的线性拟合结果(a);机器学习迭代计算线性拟合参数的过程(b);机器学习中“梯度下降”的过程(c)
Fig.1 (a) Scatters indicate the mapping relationship between the ‘train data’ x and ‘labeled data’ y,the red line indices the linear fitting by machine linear;(b) the updating of weights along the iteration;(c) the gradient descent of machine learning
为简单起见,先构建一个浅层的神经网络:一层输入层,包含一个神经元节点;两层隐藏层,分别包含4个和5个神经元节点;一层输出层,包含一个神经元节点(图2a)。我们将从矩阵乘法的角度,逐步解析神经元之间的连接方式。
1)输入层到第一层隐藏层
因为输入层只有一个神经元,即只包含一个数据,可以将其视为一行、一列的矩阵 $X = [x_{1}^{1}]$ ,此处 $x_{i}^{j}$ 的下标表示第i个样本的第j个特征数据,比如 $x_{1}^{1}$ 和 $x_{1}^{2}$ 可以分别表示第1个观测时次某个观测站点的气温和降水,以此类推(下同);隐藏层包含4个神经元,即4个数据,可将其表述为一行、四列的矩阵 $Y = [y_{1}^{1}, y_{1}^{2}, y_{1}^{3}, y_{1}^{4}]$ 。为了使实现矩阵X和矩阵Y之间的映射,可以构建一个一行、四列的参数矩阵 $ω = [ω_{11}, ω_{12}, ω_{13}, ω_{14}]$ 。于是,X·ω=Y则实现了输入层与第一层隐藏层神经元之间的连接(图2b)。
2)第一层隐藏层到第二层隐藏层
第二层隐藏层有5个神经元,可将其表述为一行、五列的矩阵 $Z = [z_{1}^{1}, z_{1}^{2}, z_{1}^{3}, z_{1}^{4}, z_{1}^{5}]$ 。按照上述思路,需要构建一个五行、五列的新参数矩阵θ。于是Y·θ=Z则实现了第一层隐藏层与第二层隐藏层神经元之间的连接(图2b)。
3)第二层隐藏层到输出层
输出层只有一个预测值p₁,因此只需构建一个五行、一列的新参数矩阵μ即可实现第二层隐藏层与输出层神经元之间的连接(图2b)。
完成构建上述神经网络之后,可以将批量的“训练数据”集(假设有n个样本)输入神经网络,即可得到n个“预测数据”集;结合对应的n个“标签数据”,则可得到关于ω,θ和μ的损失函数f(ω,θ,μ)。然后,通过优化器不断减小损失函数同时更新参数ω,θ和μ(图2b;可参见第四节)。值得注意的是,为了探索隐藏层与其前、后层之间的非线性关系,神经网络会在隐藏层引入一个非线性的“激励函数”;这也是神经网络算法相对线性模型更为优越的原因(Specht,1991)。
为了直观展示神经网络的学习效果,首先构建了一个非线性函数y’=sin(3.5×cos(2.5θ)),θ为-1到1之间的300个等间距数据,即“训练数据”集;y’与θ之间的函数曲线如图(3a)蓝线所示;在该非线性函数上叠加一定的随机噪音,从而得到300个“标签数据”y。θ与y之间的映射结果如图3a散点所示。构建一个神经网络,包含一层输入层、2层隐藏层(分别包含16个神经元)和一层输出层。将“训练数据”θ输入神经网络,在隐藏层中使用双曲正切(hyperbolic tangent function,tanh)激励函数(图3b);当机器经历6 000次迭代计算后,机器“学习”到的输出值如图3a黄线所示,此时损失函数的值为0.01。可见,神经网络机器学习对于解决非线性问题有较好的表现。当采用修正线性单元(Rectified linear unit,relu)“激励函数”(图3c)时,机器经历6 000次迭代之后的输出值为图3a的红线,此时损失函数的值为0.052。
图2 一个浅层的神经网络结构(a);解析神经网络结构示意图(b)
Fig.2 (a) A shallow neural network;(b) illustrating the architecture of neural network
图3 神经网络拟合非线性函数以及采用不同“激励函数”的效果(a;蓝线表示真实函数的曲线;散点表示在真实函数基础上叠加随机噪音的数据;黄色、红色分别表示采用tanh、relu“激励函数”的神经网络学习结果);(b),(c)分别表示tanh、relu “激励函数”
Fig.3 (a)Non-linear fitting by neural network with different activation functions;the blue curve indicates the ‘true’ curve of non-linear function;scatters indicate the non-linear function f(θ)=sin(3.5 cos(2.5θ)) overlapped by random noise;the yellow and red curves are results of machine learning with activation function of tanh and relu,respectively;(b) and(c) illustrate the activation function of tanh and relu,respectively
以上构建的神经网络针对的是输入层只有一个特征值[ $x_{1}^{1}$ ](图2a)。如果输入层需要处理多个特征值,比如尝试利用秋季的北极海冰指数和秋季的欧亚积雪指数预测的东亚冬季气温指数(即输入层的两个特征值对应一个输出值),该如何构建神经网络呢?此时,只需要将输入层的神经元增加到两个(即输入层矩阵为两列 $[x_{1}^{1}, x_{1}^{2}]$ )、与之相乘的参数矩阵增加到两行(图2b),即可完成输入层包含两个特征值的神经网络构建;以此类推。由于气候系统复杂多样,且各气候系统之间存在非线性的相互作用(Hasselmann,1999),因此,未来将利用机器学习构建气候预测模型,旨在进一步提高气候预测的技巧。
4 深度学习之卷积神经网络及其回报东亚冬季气温实例
卷积神经网路(Convolutional Neural Network,CNN)是在普通神经网络的基础上增加了一个或者多个卷积层(convolutional layer)和池化层(pooling layer;包括最大池化和平均池化等(Goodfellow et al.,2016)。卷积的过程是:首先随机给定一个卷积核(convolutional kernel),也就是一个权重矩阵,其维数与被卷积的数据相同、但水平分辨率更小;卷积核按照自身分辨率的大小、以固定的步长从被卷积数据中提取数据子集,并与之对应相乘、再求总和;直至完成对所有数据的检索。为了考虑数据的非线性,卷积之后的数据会再经过一个“激励函数”,最终的输出结果将进入池化层(参看图4中的“第一步”)。
池化(以最大池化为例):是以规定的水平分辨率(比如2×2的格点)、按照规定的步长检索卷积层的输出数据,每次检索都输出该格点范围内的最大值;直至完成对所有数据的检索(参看图4中的“第二步”)。需要指出的两点是:
1)图4中只使用了一个卷积核,因此卷积之后的数据依然是二维。实际上,可以采用多个不同的卷积核对数据进行卷积;每一个卷积核都按照以上过程对数据进行卷积。因此,当所有卷积核完成卷积过程后,输出的数据水平分辨率明显减小,同时也会增加一个维度(等于卷积核的数目)。
2)图4中只有一个卷积层和一个池化层。实际应用中,可以有多次重复上述卷积、池化过程;即池化之后的数据再经历卷积、池化。卷积核、卷积层和池化层的数目需要根据具体问题以及试验效果进行调整。
图4 卷积神经网络的结构
Fig.4 The architecture of convolutional neural network
将池化之后的数据转换为一维数据,再输入到普通神经网络的输入层,即可完成卷积神经网络的构建(参看图4中的“第三步”)。
卷积神经网络已经在计算机视觉(如图片分类识别)、自然语言处理等方面取得了巨大成功(Goodfellow et al.,2016;Huntingford et al.,2019)。气候预测研究和应用也经常使用二维或三维数据。因此,从理论上讲,卷积神经网络完全可以应用到气候预测领域中。另外,气候系统观测数据和数值模拟数据的大量丰富,为机器学习提供了充足的训练数据。
为了尝试将卷积神经网络应用到气候预测,本文采用卷积神经网络方法,利用第五阶段耦合模式比较计划(CMIP5)的历史模拟数据,针对东亚冬季逐月的气温指数构建了机器预测模型;然后利用历史观测数据输入该训练好的机器预测模型,对东亚冬季逐月气温的历史观测时间序列展开回报试验。研究数据、建模方法和回报结果如下。
4.1 研究数据
21 个气候模式的历史模拟数据取自CMIP5,时段为1861—2005年;变量包括表面气温T2m、海表温度SST和0~300 m平均的海洋温度T300(https://esg-fnode.llnl.gov/projects/cmip5/)。动力气候模式CanCM4i的历史回报试验结果取自:https://iridl.ldeo.columbia.edu/SOURCES/.Models/.NMME/。观测数据包括:1)美国国家环境预测中心(NCEP)的全球海洋数据同化系统(GODAS)的海温资料(https://psl.noaa.gov/data/gridded/data.godas.html;Behringer and Xue(2004)),时段为1982—2018年;2)欧洲中长期预报中心再分析资料(ERA5)中的表面气温T2m,时段为1982—2018年(C3S,2017)。为了节省机器的训练时间,CMIP5和GODAS的SST和T300均插值为5°×5°的水平分辨率,范围为60°S~60°N,0°~360°;即格点分辨率为24(纬向)×72(经向)。
4.2 建模方法
1) 构建机器“训练数据”Train_data,“标签数据”Labeled_data和“测试数据”Test_data(表2)
首先,将所有数据中的T2m、SST和T300均转化为距平场(减去相应数据时段的气候态),CMIP5、GODAS和ERA5中的距平场分别记为CMIP_SSTA,CMIP_T300A,CMIP_T2mA,GODAS_SSTA,GODAS_T300A,ERA5_T2mA。计划针对东亚冬季逐月(即12月、1月和2月)提前1个月展开预测,预报因子为前期连续3个月的SST和T300的距平场。
表2 机器模型及其相应的“训练数据”(Train_data)、“标签数据”(Labeled_data)、“测试数据”(Test_data)和“预测值”(Prediction)
Table2 Machine learning model and its training data(Train_data),Labeled data(Labeled_data),testing data(Test_data) and prediction(Prediction)
为了检验机器预测模型的预测效果,进一步计算了1982—2017年12月、1983—2018年1月以及1983—2018年2月东亚某区域(100°~140°E,10°~30°N,)ERA5_T2mA的区域平均值,分别记为ERA5_T2m_Dec、ERA5_T2m_Jan和ERA5_T2m_Feb。值得注意的是,为了尽可能获得足够大的训练数据样本,使用CMIP5历史模拟试验的全时段数据,导致训练数据与测试数据在时段上有一定的重叠。然而,考虑到CMIP5耦合模式模拟的气候年际变率与观测结果之间的相关系数非常弱,因此上述重叠不会对机器学习的预测效果产生明显的影响。
2)卷积神经网络预测模型的结构
卷积神经网络包含3个卷积层和2个最大池化层,最后一级卷积层与普通神经网络全连接;该普通神经网络包含一个隐藏层。第一个卷积层的卷积核大小为8×4的格点分辨率,第二和第三个卷积层的卷积核大小均为4×2的格点分辨率;最大池化层以2×2的格点分辨率从卷积层中检索最大值。为了获得更为客观的预测结构,尝试了两个不同数目(即30和50)的卷积核和隐层神经元,如C30H50表示拥有30个卷积核和50个隐层神经元的卷积神经网络;依次类推。同时,每个卷积神经网络都采用了10个不同是初始权重进行训练,并展开相应的回报试验。
4.3 回报结果
图5显示了卷积神经网络机器模型提前一个月回报的东亚冬季12月、1月和2月的气温指数,分别记为Pre_T2m_Dec、Pre_T2m_Jan、Pre_T2m_Feb。结果显示,卷积神经网络集合平均的回报结果Pre_T2m_Dec、Pre_T2m_Jan、Pre_T2m_Feb与12月、1月、2月的观测结果ERA5_T2m_Dec、ERA5_T2m_Jan、ERA5_T2m_Feb间的相关系数分别为0.77、0.82和0.70。同时,回报指数的幅度与观测也比较接近。值得注意的是,不同数目的卷积核、不同数目的隐藏层神经元的卷积神经网络预测结果差异并不大。但是,不同初始场(图5阴影所示)之间的预测结果差异明显。
神经网络的加深可以一定程度上提高机器的预测能力;例如,图6a和6b中C50H50的回报效果略好于C50H30。但是,当神经网络结构达到一定的深度时,通过控制初始场以寻求神经网络全局最优参数变得尤为重要。例如,针对同样的机器预测模型,采取不同的初始参数训练机器(图6:C50H50),得到的回报结果与观测的相关系数在不同集合之间相差可达0.2左右。
图5 采用卷积神经网络,利用前期连续3个月的海表温度异常、0~300 m的海洋热含量异常(0°~360°,60°S~60°N)提前1个月预测的1982/83—2017/18年12月(a)、1月(b)、2月(c)东亚某区域(100°~140°E,10°~30°N)气温异常(红色曲线表示观测结果;其他曲线表示搭配不同数目的卷积核(C)和隐藏层(H)的卷积神经网络的集合平均预测结果,如C50H30表示卷积神经网络包含50个卷积核和30个隐藏层,以此类推;蓝色曲线表示卷积神经网络中所有集合的平均预测结果、并叠加集合平均的误差(±1 标准差))
Fig.5 Ensemblemean time series of(a)December 1982—2017,(b)January 1983—2018,(c)February 1983—2018 aera-averaged(10°—30°N,100°—140°E) T2m anomalies for one-month-lead hindcast using convolutional neural network(CNN) model(blue solid curves) as well as the corresponding observed time series(red curves).Other curves represent results of CNN model with different numbers of convolutional filters and hidden layers;for example,C50H30 indicates the CNN model with 50 convolutional filters and 30 hidden layers,and so on;shading indicates ±1 standard deviation of 40 ensemble members
需要强调的是,深度学习模型的回报效果优于气候动力模型的回报结果。如图7所示,深度学习模型提前一个月回报的东亚某区域(100°~140°E,10°~30°N)1月气温的40个集合回报试验与观测结果之间的相关系数为0.5~0.8,均通过95%的信度检验;同时也高于动力模式CanCM4i回报结果与观测之间的相关系数(0.42)。另外,深度学习模型提前2~3个月回报的东亚某区域(100°~140°E,10°~30°N)1月气温技巧也普遍高于动力模式的回报效果。
值得注意的是,尽管上述例子表明机器学习可以应用到短期气候预测中。但并不意味着,给定机器任意的“大数据”就可以建立表现良好的气候预测模型。为了建立预测技巧较高的机器学习气候预测模型,需要充分了解“大数据”背后的气候动力学。换而言之,气候动力学指导建立机器学习模型,对于充分发挥机器学习在气候预测中的潜力至关重要。例如,采用与图5b同样的机器学习思路、分别针对低纬度(100°~140°E,0°~20°N)和中纬度(100°~140°E,30°~50°N)1月的平均气温建立回报模型,集合平均的回报结果与观测结果的相关系数分别为0.89和0.33(图8)。其中的主要原因可能是,相对于中高纬度的气候,低纬度的气候受热带和副热带海温的影响更加明显(图9)。本文机器学习预测模型中的预测因子主要是60 °S~60 °N的海表温度异常和0~300 m的海洋热含量异常。从气候动力学的角度理解,本文的机器学习预测模型更适合中低纬度的气候预测。如果要建立中高纬度气候的机器学习预测模型,则需要更多地考虑中高纬度气候系统的影响,如欧亚积雪、北极海冰、极涡等(贺圣平等,2016;He et al.,2020)。需要强调的是,尽管线性回归分析表明东亚低纬度的气温异常与全球部分地区的海温存在显著的统计联系,但是基于海温构建的线性回归模型对东亚气温的回报结果远远不如机器学习的回报效果(图略)。进一步表明机器学习在探索非线性过程方面的明显优势。
图6 计算数据与图5相同,但显示的是卷积神经网络中每一个集合的预测结果与观测结果的相关系数;红色柱状为集合平均的结果;水平虚线表示通过95%信度检验的临界值;(a)、(b)、(c)分别表示12月、1月和2月的预测效果
Fig.6 Dataset are the same as Fig.5,but for the correlation coefficients of each ensemble members with the observation in(a)December,(b)January,and(c)February;the red bar indicates the results of ensemble mean in each CNN model;the horizontal dashed line indicates the value at 95%confidence level
5 总结与讨论
在机器学习蓬勃发展之际,本文围绕机器学习之监督学习的基本原理、通过线性和非线性以及深度学习的机器学习例子,解析机器学习在气候预测中的潜在应用。
首先,通过介绍机器学习获取线性拟合函数参数的简单例子,解析了机器学习中“训练数据”、“标签数据”和“损失函数”的意义,展示了机器学习如何通过“梯度下降”算法减小损失函数并更新和优化参数、并最终得到合理的线性拟合直线的过程(图1)。
其次,从矩阵乘法的角度,解析了神经网络输入层至隐藏层再到输出层之间的搭建思路(图2);并以非线性数据集为例子,展示了神经网络机器模型拟合非线性函数曲线的例子,同时也比较了采用不同“激励函数”的神经网络的学习效果(图3)。
图7 卷积神经网络中每一个集合提前1个月、2个月和3个月回报的东亚某区域(100°~140°E,10°~30°N)1月气温与观测结果间相关系数的盒须图(红点表示动力模式CanCM4i回报结果与观测之间的相关系数;水平虚线表示通过95%信度检验的临界值)
Fig.7 Boxplot for correlation coefficients of observation with each ensemble member’s hindcast with one month,two months,and three months in advance;red dot indicate the correlation between the observation and the hindcast by CanCM4i;the horizontal dashed line indicates the value at 95%confidence level
之后,解析了深度学习之卷积神经网络的基本框架,包括卷积核的作用、卷积层和池化层的工作过程,以及池化层如何连接到普通神经网络(图4)。最后,介绍了如何通过CMIP5“大数据”、利用卷积神经网络搭建东亚冬季逐月气温的预测模型,并利用观测数据展开回报试验(图5、图6和图7)。同时,讨论了气候动力学知识指导搭建机器学习预测模型的重要性(图8和图9)。
需要指出的是,机器学习已经是一门综合性的学科,包含了众多算法,如批量梯度下降法、随机梯度下降法、小批量梯度下降法、线性回归、逻辑回归、决策树、朴素贝叶斯、K临近、学习向量化、支持向量机、随机森林等。深度学习也只是机器学习的一个重要分支,其算法包括卷积神经网络、循环神经网络、生成对抗网络和深度强化学习。本文只是简要介绍了机器学习中的批量梯度下降算法、浅层神经网络和卷积神经网络,旨在初步认识机器学习的原理和作用,为进一步深入了解机器学习提供一定的基础知识。
图8 与图5b类似,1983—2018年1月(100°~140°E,0°~20°N)(a)、(100°~140°E,30°~50°N)(b)区域平均气温异常的预测结果
Fig.8 Same as Fig.5(b),but for the hindcast of area-averaged T2m anomalies in January 1983—2018 over(a)0°—20°N,100°—140°E and(b)30°—50°N,100°—140°E
图9 1983—2018年1月(100°~140°E,0°~20°N)区域平均(a,b)及(100°~140°E,30°~50°N)区域平均(c,d)气温异常与前期3个月平均的(12月、11月和10月)海表温度异常(a,c)、0~300m海洋热含量异常(b,d)的相关系数(阴影),打点区域表示通过95%信度检验的值
Fig.9 Correlation coefficients(shading) of area-averaged T2m anomalies over(0°—20°N,100°—140°E) in January 1983—2018 with the preceding three months’ mean(October,November,December)(a)sea surface temperature anomalies and(b)oceanic heat content anomalies from surface to 300m;regions with stippling indicate the values significant at 95%confidence level;(c) and(d) are the same as(a) and(b),respectively,but for the area-averaged T2m anomalies over(30°—50°N,100°—140°E) in January 1983—2018
参考文献