技术文章及通讯

在MATLAB中使用信息理论统计来理解生态系统如何影响区域气候

作者:Benjamin L. Ruddell,亚利桑那州坦佩的亚利桑那州立大学,Nils Oberg,伊利诺伊大学厄巴纳-香槟分校,伊利诺斯州,马塞洛·加西亚,伊利诺伊大学厄巴纳-香槟分校,伊利诺斯州,厄巴纳-香槟分校,普拉文·库马尔,伊利诺斯州厄巴纳-香槟分校


众所周知,天气和气候会影响生长在大地上的植物、动物和微生物。新的研究正在调查反过来也成立的可能性:由于植物和大气之间的反馈,植被和景观影响区域气候。

伊利诺伊大学香槟分校的研究人员开发了一种统计方法来检测环境变量之间的联系,比如植物叶片的蒸发;隔离驱动其他变量变化的变量;并确定反馈循环。该项目由美国宇航局和大芝加哥大都会水回收区资助。

为了理解自组织系统中的关键变量之间的关系,例如地球的陆地表面生态系统和气候,我们必须超越传统的线性分析方法。在线性系统中,子系统“X”的变化会引起子系统“Y”的相应变化。在以循环反馈为特征的非线性或自组织系统中,这种因果关系的概念就不成立了,因为组件“X”和“Y”变成了自成因。

此外,自组织反馈循环可以嵌套在彼此之间,这样系统的动态行为就像一个俄罗斯娃娃,每个物理过程都是一个更大的反馈循环的一小部分。这种类型的自组织系统最好被理解为过程网络1.过程网络将复杂系统描述为嵌套反馈循环及其相关时间尺度的网络。使用基于统计信息理论的一种新的高级统计,可以为任何可以观察和测量的系统推导出过程网络。

使用MATLAB®和并行计算工具箱™,我们将这些计算密集型统计方法应用于时间序列数据,包括观测到的气象、水文和环境变量。这些结果不仅有助于解释包括干旱在内的气候变化如何影响生态系统,还有助于解释人类对景观和植被的改变如何影响区域气候。

解决一个计算密集型问题

观测数据来自FLUXNET,这是一个由400多个塔组成的全球网络,每个塔都配备了一套传感器(图1)。这些传感器记录了空气温度(Θa)、土壤温度(Θs)、土壤含水量(θ)、太阳辐射(Rg)、蒸汽压密度(VPD,一种湿度测量方法)、降水(P)、云量(CF)、进出生态系统的二氧化碳净流量(NEE)。以及以感热通量(γH)和潜热通量(γLE,蒸发水)的形式从地面辐射的热量(图2)。测量的平均时间分辨率为30分钟间隔。用于研究干旱结构的邦德维尔塔位于伊利诺伊州香槟市附近。自1996年以来,这座塔一直在测量气候。

ui_fig1_w.jpg
图1所示。伊利诺斯州香槟邦德维尔附近的涡流协方差通量塔。点击图片查看放大视图。
ui_fig2_w.jpg
图2。分析中使用的变量。点击图片查看放大视图。

对于通量网塔测量的两个变量的每个组合,从时间序列数据估计联合概率分布。信息理论统计传递熵,建立变量之间的统计因果联系,需要估计三维联合概率密度函数。对于每个月所研究的数据,必须对所有可能的变量组合和时间滞后进行重复计算。然后,我们可以研究变量之间的连接过程网络如何随着季节变化而变化,并了解干旱对系统结构的影响。

这种方法的计算密集型性质是我们选择MATLAB的主要原因之一。MATLAB非常适合分析所需的矩阵操作,并行计算工具箱使我们能够通过在计算集群上运行它们来加速计算。此外,MATLAB的可视化功能使我们能够快速分析大量的统计结果。

第一步是确保我们从FLUXNET塔接收到的数据是完整的,并且格式正确。使用MATLAB和Statistics and Machine Learning Toolbox™,我们编写了脚本来提取我们需要的数据子集,扫描它的错误和遗漏,在可能的情况下填充缺失的数据,并将数据格式化以用于统计算法。使用“统计和机器学习工具箱”对输入数据集按月、季节和年份进行汇总,以便绘制结果。

估计传递熵统计量取决于从数据中准确估计概率密度。为了计算密度,我们开发了一种用于固定区间划分(或bin-counting)分类方案的MATLAB算法来估计联合概率。

我们利用传递熵来研究系统的过程网络,得到了几个有趣的统计结果,包括每个变量的月平均净信息产量。信息生产度量过程网络中各变量的预测值;一个具有足够大的正净信息产出的变量,其对网络上其他变量的驱动作用要大于这些变量对网络的驱动作用(图3)。由于过程网络上的反馈,所有变量都控制着整个网络的行为,但图3中标记为红色的变量具有最大的控制影响。

ui_fig3_w.jpg
图3。从1998年到2006年,伊利诺伊州Bondville站点每月跟踪变量的平均总(上)和净(下)信息生产。可视化显示,空气温度(Θa)和太阳辐射(Rg)是过程网络的强大因果驱动因素,特别是在夏季(红色表示强烈的信息产生,因此对系统有强烈的因果控制)。经Ruddell和Kumar允许使用(2009b)。点击图片查看放大视图。

并行化应用程序

在最初的原型设计过程中,分析主要集中在单个地点两个月的数据上。MATLAB算法整夜都在专用的工作站上运行,因为它们需要几个小时才能完成。当我们开始分析跨越多个站点的十年数据时,我们意识到完整的计算需要大约一个月的时间。等待结果的时间太长了,特别是当调试和代码更改需要多次计算时。

显然,我们需要通过并行化算法并在计算机集群上运行它们来加速分析。幸运的是,我们可以分别分析每个月和每个塔站的数据集,使得数据分析相对容易并行化。然而,在集群环境中工作总是存在挑战。例如,在并行处理Fortran应用程序时,开发人员可能需要对其进行调整,以考虑缓存和内存限制,编写初始化和分段脚本,并调整代码以处理集群机器的独特属性。

通过MATLAB和并行计算工具箱,我们通过改变一行代码来并行化我们的算法。事实上,并行化过程中最困难的部分是使我们自己相信一个代码修改——改变a循环到parfor(平行)循环是所有需要的。最初的代码并没有明确地设计为并行化,但是我们花了不到一个小时的时间将代码转换为在计算集群上并行运行。每个“工作人员”计算的结果被收集到一个六维数组中,然后对其进行切块和可视化以显示结果。

分析是在一个32核集群上运行的,该集群包括四个双cpu、四核系统。我们看到了计算速度的线性提高,在一天内完成在单个工作站上需要一个月才能完成的工作。在一个核上需要176个小时的数百万次迭代的计算,在32个核上只需要5.46个小时。

将方法应用于其他学科

我们的研究证实,景观和生态系统的变化可以通过过程网络中的区域反馈循环影响区域气候。这一发现的含义是,例如,土地使用决策可以影响美国中西部干旱的严重程度和持续时间。利用这一信息,有可能设计农业、林业和城市发展的土地使用政策,最大限度地减少对区域气候的不利影响。

我们正在与研究人员合作,他们将这些统计方法应用于其他时变复杂系统,其中组件之间的反馈导致自组织。在一项研究中,科学家们正在分析微生物和营养物质封闭系统中的时间序列化学浓度,以更好地了解所涉及的生物循环。另一方面,研究人员正在分析卫星数据,以调查景观不同部分的相互作用。金融市场分析是这种统计方法的另一个理想应用。

无论什么学科,我们使用的算法都采用了尖端的统计方法,并且计算量非常大。MATLAB,统计和机器学习工具箱,以及并行计算工具箱提供了一个优势,无论是在算法的开发,还是在使用并行计算的能力,以快速获得和可视化结果。

作者简介

本杰明·鲁德尔是亚利桑那州立大学工程系的助理教授。Nils Oberg是伊利诺伊大学香槟分校土木工程系的一名研究程序员。马塞洛·加西亚(Marcelo Garcia)是伊利诺伊大学香槟分校土木工程系教授。

普拉文·库马尔是伊利诺伊大学香槟分校土木工程系的教授。

这项工作是在伊利诺伊大学的Ven Te Chow水文系统实验室完成的。

发布于2010 - 91803v00

参考文献

  • 鲁德尔,B.L.和P.库马尔(2009a)。
    “生态水文过程网络:1。识别。”水资源研究45,W03419, doi:10.1029/2008WR007279。
  • 鲁德尔,B.L.和P.库马尔(2009b)。
    “生态水文过程网络:2。分析和表征。”水资源研究35,W03420, doi:10.1029/2008WR007280。

查看相关功能的文章

查看相关行业的文章