技术文章和通讯

美国人口普查数据拟合和推断

由克里夫硅藻土,MathWorks


“美国人口的增长是自1937年以来最慢的速度。”这纽约时报标题促使我重温老栗:拟合和推断统计数据。在这个过程中,我添加了一些非线性,即对数曲线和双指数龚帕兹模型。

实验比MATLAB®。它开始作为练习计算机数学计算的方法活力四射,马尔科姆,硅藻土,40年前出版。我们使用Fortran。数据集已经更新这本书出版以来每十年。今天,MATLAB图形更容易改变参数和看到结果,但潜在的数学原理保持不变:

*使用多项式的温和程度推断数据预测未来是一件冒险的事。

著名的纽约洋基队捕手和出芽计算科学家约吉贝拉曾经说过,“很难做出预测,尤其是对未来的。”We’re going to use polynomials, splines, exponentials, and the census app in Cleve’s Laboratory to do just that.

的数据

我们的实验的数据来自于美国的十年一次的人口普查为1900年至2010年(在数以百万计的数字):

1900 75.995 1910 91.972 1920 105.711 1930 123.203 1940 131.669 1950 150.697 1960 179.323 1970 203.212 1980 226.505 1990 249.633 2000 281.422 2010 308.746

的任务是推断大小人口超过2010。使用censusapp,让我们看到一个外推的七年,从2010年到2017年,人口普查局匹配模型。在你进一步阅读之前,暂停,让自己的猜测。

人口普查应用

这是打开的屏幕censusapp。+和-按钮改变外推的标题。如果你超越2030年,情节镜头拉出。

十二年的人口普查数据。让我们年代推断七年。

十二年的人口普查数据。我们推断七年。

应用的下拉菜单提供了七个模型:

人口普查数据
多项式
pchip
样条
指数
物流
龚珀兹

40年前,我们只有多项式。

目标价值

美国人口普查局网站提供了一个动态人口时钟,持续经营。这是中午的快照,美国,人口普查的一天,2017年4月1日。这是指定时间捕获的统计值。

于2017年4月1日人口时钟。

于2017年4月1日人口时钟。

因此,推断的目标价值2017等于3.2479亿的人口普查数据。

使用多项式

多项式摆动。约束匹配数据在一个特定的时间间隔,他们发疯以外,间隔。在这个实验中,有12个数据点。的censusapp让你改变多项式程度介于0到11。与程度小于11近似多项式最小二乘意义上的数据。学位的多项式11篡改数据准确。随着程度的增加,数据的近似变得更加准确,但超过2010(1900年或之前)的行为变得更加暴力。这里是度2和7,9,11,叠加在一个阴谋。

多项式的程度大于两个不适合外推。

多项式的程度大于两个不适合外推。

二次拟合是最好的表现。当评估在2017年,它忽略了目标,到750万年,但它不能预测增长率减少人口普查局的观察。(当然,没有理由相信,美国人口的增长时间像一个二级多项式。)

学位的插值多项式11试图逃脱即使在2010年,它是负2014年末。

推断与样条函数

MATLAB有两个分段立方插值多项式:样条pchip。经典的样条是光滑的,因为它有两个连续的衍生品。它的竞争对手,pchip保持形状和牺牲一个连续的二阶导数,避免过激的。这两个多项式用于推断,但不管怎样我们将使用它们。

他们的行为超出了时间间隔是由他们的结束条件。经典的样条使用所谓的not-a-knot条件。它实际上是一个立方在最后两个小区间。立方也用于推断之外的端点。pchip使用最后三个数据点来创建一个不同的一种保形立方用于最后的子区间。

让我们放大样条pchip

pchip会产生一个合理的推断;样条没有。

pchip发生在产生一个合理的推断;样条没有。

都是预测增长率下降2010年以后,就像美国人口普查局。但样条绘画是一个令人沮丧的画面。3.146亿年2017年1000万年的价值低于人口时钟值,和接近最大值。另一方面,pchip幸运,2017年值3.251亿030万的人口时钟值内。展望未来,pchip最多达到3.602亿年的2047人。这是一个思考的预测。

三个指数

就像我说的,没有理由由多项式模型的人口增长,分段。但因为我们可以预计人口增长率的大小成正比,有很好的理由使用一个指数。

\ [p (t) \大约\α\:文本\ {e} ^ {bt} \]

许多作者提出的方法来修改这个模型,以避免其无限增长。我添加了两个censusapp。一个是物流模型。

\ [p (t) \大约\α/ (1 + b \: \文本{e} ^ {- ct}) \]

另一个是龚帕兹双指数模型,命名本杰明龚珀兹,一个19岁th世纪,自学的英国数学家和天文学家。

\ [p (t) \大约\α\:文本\ {e} ^ {- b \: \文本{e} ^ {- ct}} \]

在这两种模型的增长是有限的,因为近似词方法\α(\ \)\ (t \)趋于无穷。

在所有的三个指数模型,参数\α(\ \)\ (b \),并可能\ (c \),出现非线性。原则上,我可以使用lsqcurvefit在二维或三维搜索最小二乘适合人口普查数据。但是我有一个选择:通过一个或两个对数,我获得一个可分离的最小二乘模型中,一个参数,\α(\ \),出现非线性。

指数模型,取对数。

\[{日志}\ \文本:p{日志}\ \大约\文本:\α+ bt \]

适合数据的对数直线,然后取幂结果。不需要搜索。

对于物流模型,取一个对数。

\[{日志}\ \文本:文本α/ p - 1)(\ \大约\{日志}\:b-ct \]

对于任何的价值\α(\ \),参数日志\ (b \)和\ (c \)出现线性和没有搜索可以找到。因此,使用一维最小值搜索\α(\ \)。我可以用fminbnd或其教材版本,fmintx,从用MATLAB数值方法

龚帕兹模型,取两个对数。

\[{日志}\ \文本:文本{日志}\ \:\α/ p{日志}\ \大约\文本:b-ct \]

做一个一维搜索最小化\α(\ \),求解日志\ (b \),在每一步\ (c \)。

我应该指出,对数变化符合标准。我正在做一个最小二乘适合的日志数据,实际的数据。

\:

结果

这里有三个结果,推断2250年超过200年。

指数模型推断超过200年了。

指数模型推断超过200年了。

达到50亿的纯指数模型,并增长得更快。我认为这是不合理的。

\α(\ \)的价值在龚帕兹是4309.6,所以人口将超过43亿。但是它只有达到15亿200年后。再一次,不太可能。

的价值\α(\ \)物流配合是756.4,所以预测美国人口将略高于未来200年的两倍。尽管美国人口普查局的观察,我们的增长率已经放缓,我们甚至还没有一半我们的最终数量限制。

我会让你成为法官的预测。

2017 - 93130 v00出版

查看相关文章的能力