利用MATLAB中的信息理论统计了解生态系统如何影响区域气候

作者:Benjamin L. Ruddell, Arizona State University, Tempe, AZ, Nils Oberg, University of Illinois at Urbana- champaign, Marcelo Garcia, University of Illinois at Urbana- champaign, Illinois, Urbana, IL, Praveen Kumar


众所周知,天气和气候影响着生活在景观上的植物、动物和微生物。新的研究正在调查相反的可能性:由于植物和大气之间的反馈,植被和景观影响区域气候。

伊利诺伊大学厄巴纳-香槟分校(University of Illinois at Urbana-Champaign)的研究人员开发了统计方法来检测环境变量之间的联系,比如植物叶片蒸发;隔离驱动其他变量变化的变量;并确定反馈循环。该项目是由美国国家航空航天局和大芝加哥城市水再生区资助的。

为了理解自组织系统中的关键变量之间的关系,比如地球的地表生态系统和气候,我们必须超越传统的线性分析方法。在线性系统中,子系统“X”的变化导致子系统“Y”的成比例变化。在具有循环反馈特征的非线性或自组织系统中,这种因果关系的概念就失效了,因为组件“X”和“Y”变成了自我导致的。

此外,自组织反馈循环可以相互嵌套,这样系统的动态行为就像一个俄罗斯娃娃,每个物理过程都是一个更大的反馈循环的一小部分。这种类型的自组织系统最好理解为过程网络1.过程网络将复杂系统描述为嵌套反馈回路及其相关时间尺度的网络。利用基于统计信息理论的一种新的高级统计方法,可以为任何可以观察和测量的系统导出过程网络。

使用MATLAB®和并行计算工具箱™,我们将这些计算密集型统计方法应用于时间序列数据,包括观察到的气象,水文和环境变量。结果有助于解释气候变化,包括干旱,影响生态系统,也是如何对景观和植被的变化如何影响区域气候。

解决计算密集的问题

观察到的数据来自Fluxnet,全球网络超过400塔,每个网络都配备了一套传感器(图1)。这些传感器记录空气温度(θa),土壤温度(θs),土壤含水量(θ),辐射来自阳光(rg),蒸气压密度(vpd,湿度测量),沉淀(p),云覆盖(CF),生态系统(NEE)中的二氧化碳的净流动,以及从地面辐射的热量为可显着的热通量(γH)和潜热通量(γLE,蒸发水)(图2).测量值平均到30分钟间隔的时间分辨率。邦德维尔塔用于研究干旱的结构位于伊利诺伊州的香槟馆附近。这座塔自1996年以来一直在衡量气候。

图1所示。一个涡流相关通量塔在Champaign,伊利诺斯州,靠近Bondville地点。点击图像查看放大视图。
图2.分析中使用的变量。点击图像查看放大视图。

对于由浮雕塔测量的两个变量的每个组合,从时间序列数据估计了联合概率分布。信息理论统计转移熵在变量之间建立统计因果关系,需要估计3D联合概率密度函数。对于所研究的数据的每个月,必须重复该计算以获取所有可能的变量和时间滞后组合。然后,我们可以检查变量之间的进程网络如何随季节变化,并了解干旱对系统结构的影响。

这种方法的计算密集性是我们选择MATLAB的主要原因之一。MATLAB非常适合分析所需的矩阵操作,并行计算工具箱使我们能够通过在计算集群中运行它们来加速计算。此外,MATLAB可视化功能允许我们快速分析大量统计结果。

第一步是确保我们从FLUXNET塔接收到的数据是完整的和正确的格式。使用MATLAB和统计和机器学习工具箱™,我们编写了脚本来提取我们需要的数据子集,扫描它的错误和遗漏,在可能的情况下填补缺失的数据,并格式化数据以用于统计算法。统计和机器学习工具箱用于按月、季节和年汇总输入数据集,以便绘制结果。

传递熵统计量的估计依赖于对数据概率密度的准确估计。为了计算密度,我们开发了一个固定区间划分(或箱计数)分类方案的MATLAB算法来估计联合概率。

利用传递熵对系统的过程网络进行研究,包括各变量的月平均净信息产量,得到了一些有趣的统计结果。信息生产度量了过程网络中各变量的预测值;一个具有足够大的正向网络信息生产的变量,对网络上其他变量的驱动要大于对这些变量的驱动(图3)。由于对过程网络的反馈,所有变量都控制着整个网络的行为,但图3中标记为红色的变量具有最大的控制影响。

图3。从1998年到2006年,每个月在IL的Bondville站点追踪的变量的平均总(顶部)和净(底部)信息产出。可视化结果表明,空气温度(Θa)和太阳辐射(Rg)是过程网络的强因果驱动因素,特别是在夏季(红色表示强信息产生,因此对系统具有强因果控制)。经Ruddell和Kumar许可使用(2009b)。点击图像查看放大视图。

并行应用程序

在最初的原型设计过程中,分析集中在单个站点两个月的数据上。MATLAB算法通宵在专用工作站运行,因为它们需要几个小时才能完成。当我们开始分析跨多个站点的十年数据时,我们意识到完整的计算大约需要一个月的时间。这对于等待结果来说太长了,特别是当调试和代码更改将需要多次计算时。

显然,我们需要通过并行化算法并在计算机集群上运行它们来加速分析。幸运的是,我们可以分别分析每个月和每个塔址的数据集,使得数据分析比较容易并行化。然而,在集群环境中工作总是存在挑战。例如,在并行化Fortran应用程序时,开发人员可能需要对其进行调整,以考虑缓存和内存限制,编写初始化和分段脚本,并调整代码以处理集群机器的独特属性。

用MATLAB和并行计算工具箱,我们通过改变一行代码并行化我们的算法。事实上,并行化过程中最困难的部分是说服我们自己,一个代码修改-更改a为了循环parfor(平行为了)循环——这就是所需要的。最初的代码并没有明确地设计为并行化,但是我们花了不到一个小时的时间将代码转换为在计算集群上并行运行。每个“工作人员”计算的结果被收集到一个单一的六维数组中,然后将其切成方块并可视化显示结果。

在包含四个双CPU,四核系统的32核群中运行分析。我们在一天内完成了计算速度的线性改善,在单个工作站上一个月需要一个月。使用32个核心仅需5.46小时,使用数百万次迭代计算,其中需要花费176小时。

其他学科的应用方法

我们的研究证实,景观和生态系统的变化可以通过流程网络中的区域反馈循环影响区域气候。The implication of this finding is that, for example, land-use decisions can influence the severity and duration of droughts in the Midwestern U.S. Using this information it may be possible to design land-use policies for agriculture, forestry, and urban development that minimize adverse effects on regional climate.

我们与将这些统计方法应用于其他时变复合体系的研究人员合作,其中组件之间的反馈导致自组织。在一项研究中,科学家正在分析时间序列化学浓度在微生物和营养素的封闭系统中,以更好地了解所涉及的生物循环。在另一个中,研究人员正在分析卫星数据以研究不同部位的景观的相互作用。金融市场分析是这种统计方法的另一个理想应用。

不管是什么学科,我们使用的算法采用了尖端的统计方法,并且在计算上非常密集。MATLAB,统计和机器学习工具箱,和并行计算工具箱提供了一个优势,无论是在算法的发展,在能力上使用并行计算获得和可视化的结果迅速。

关于作者

Benjamin Ruddell是亚利桑那州立大学工程系的助理教授。尼尔斯·奥伯格(Nils Oberg)是伊利诺伊大学厄巴纳-香槟分校土木工程系的研究程序员。马塞洛·加西亚(Marcelo Garcia)是伊利诺伊大学香槟分校土木工程系的教授。

Praveen Kumar Ia是伊利诺伊大学土木工程系的教授,urbana-Champaign。

这项工作是在伊利诺伊大学的Ven Te Chow流体系统实验室进行的。

发布2010 - 9183v00

参考

  • Ruddell, B.L.和P. Kumar (2009a)。
    生态水文过程网络:1。识别。”水资源研究45,W03419, doi:10.1029/2008WR007279。
  • Ruddell,B.L.和P. Kumar(2009b)。
    “生态流学过程网络:2.分析和表征。”水资源研究35,W03420,DOI:10.1029 / 2008WR007280。

查看相关功能的文章

查看相关行业的文章