用减法聚类建模交通模式

打开脚本

这个例子说明了如何使用减法聚类到模型的流量模式基于该地区的人口的区域。

问题在于:理解交通模式

在这个例子中，我们试图了解从一个地区和该地区的人口产生的汽车出游的人数之间的关系。人口和行程数据来自于新的城堡县，特拉华州交通分析区域收集。五个人口因素考虑：人口，住户，车辆所有权，家庭收入中位数和总就业人数。

关于此，在人口因素将得到解决作为输入，并且产生的旅行将作为输出加以解决。因此，我们的问题有五个输入变量（5个人口因素）和（生成的数字跳闸）一个输出变量。

数据

将本例中使用的输入和输出变量加载到工作区中。

tripdata公司

两个变量被装载在工作区中，达廷和DATOUT。达廷有5列表示5个输入变量和DATOUT具有表示1个输出变量1列。

子批次（2,1,1）绘图（datin）图例(“人口”，“居住单位数目”，“车辆所有权”，...'家庭收入中值'，'总就业')标题(输入变量的，'字体大小'，10）子地块（2,1,2）绘图（日期）图例(“旅行的num”)标题(“输出变量”，'字体大小'，10）

图1：输入输出变量

输入的行数达廷和DATOUT，75，表示可用的观察或样品或数据点的数目。一排达廷，说列11，构成一组的5个输入变量的观测值的和对应的行，列11，在（人口，居住单元，车辆所有权，平均家庭收入和就业总数目）DATOUT表示用于生成给定输入变量进行的观察旅行次数的观测值。

我们将模型的输入变量（人口统计），并通过第一聚类中的数据的输出变量（跳闸）之间的关系。然后，聚类中心将被用作基础以限定其然后可用于探索和了解业务模式的模糊推理系统（FIS）。

为什么聚类和模糊逻辑？

聚类是一种非常有效的技术，可以从大型数据集中识别数据中的自然分组，从而可以简洁地表示数据中嵌入的关系。在本例中，集群允许我们将流量模式分组到广泛的类别中，从而更容易理解。

模糊逻辑是处理不精确问题的有效方法。它可以用于对输入进行模糊或不精确的观察，但对输出却可以得到清晰和精确的值。此外，模糊推理系统是一种不用复杂的解析方程就能建立系统的方法。

在这个例子中，模糊逻辑用于捕获聚类成模糊推理系统（FIS）期间确定的大类。然后，FIS将作为一个模型，反映人口和经销商的行程之间的关系。

聚类和模糊逻辑一起提供了一种简单而强大的方法来建模我们想要研究的交通关系。

集群的数据

subclust是实现一种称为减法聚类的聚类技术的函数。减法聚类([1])是一种快速的单步算法，用于估计数据集中的集群和集群中心的数量。

在本节中，我们将看到如何群集上消减数据集执行，并在下一节中，我们将探讨集群独立如何被用来建立一个模糊推理系统（FIS）。

[C，S]=子群（[datin-datout]，0.5）；

第一个参数的subclust函数是要聚集的数据。函数的第二个参数是半径它标志着星团的影响半径输入空间。

变量C现在认为，已经确定由群集的所有中心subclust。每一行的C包含一个簇的位置。

C=1.8770 0.7630 0.9170 18.7500 1.5650 2.1830 0.3980 0.1510 0.1320 8.1590 0.6250 0.6480 3.1160 1.1930 1.4870 19.7330 0.6030 2.3850

在这种情况下,C有3行表示3个簇，6列表示每个维度中簇的位置。

subclust因此，在正在考虑的人口旅行数据集中确定了3个自然分组。下面的图显示了如何在输入空间的“总就业”和“旅行”维度中确定集群。

clf图（数据（：，5），数据（：，1），''C (:, 5), C (:, 6),“r*”)传说('数据点'，“集群中心”，'位置'，'东南'）xlabel（'总就业'，'字体大小'，10）ylabel（“旅行的num”，'字体大小'10)标题(“输入空间中选定的两个维度中的数据和集群”，'字体大小'，10）

图2：输入空间的“总就业”和“出行”维度中的集群中心

变量小号包含在每个数据维度中指定集群中心影响范围的sigma值。所有聚类中心共享相同的sigma值集。

小号

S = 1.1621 0.4117 0.6555 7.6139 2.8931 1.4395

小号在这种情况下具有表示聚类中心的在各6个维度的影响6列。

模糊推理系统(FIS)的生成

根菲斯是使用减法聚类创建FIS的函数。根菲斯雇佣subclust幕后集群中的数据，并使用聚类中心及其影响的范围内建立，这将被用来探索和了解流量模式FIS。

myfis = genfis（拿汀，DATOUT，...基因选择('SubtractiveClustering'，'ClusterInfluenceRange',0.5));

第一个参数是输入变量矩阵达廷，第二个参数是输出变量矩阵DATOUT第三个论点是半径使用时应使用的subclust。

根菲斯为输入、输出和成员函数指定默认名称。对于我们的理解，有意义地重新命名输入和输出是有益的。

为输入和输出指定名称。

myfis.输入（1） .名称=“人口”;myfis.Inputs (2)。Name =“住宅单位”;myfis.Inputs（3）请将.Name =“num工具”;myfis.Inputs（4）请将.Name =“收入”; myfis.输入（5） .名称=“就业”;myfis.Outputs（1）请将.Name =“旅行次数”;

了解群集-FIS关系

FIS由输入、输出和规则组成。每个输入和输出可以具有任意数量的成员函数。这些规则规定了基于输入、输出和隶属函数的模糊系统的行为。根菲斯构造FIS，试图捕获每个集群在输入空间中的位置和影响。

myfis是FIS的是根菲斯已经生成。因为数据集有5个输入变量和1个输出变量，根菲斯构造一个具有5个输入和1个输出的FIS。每个输入和输出的成员函数与集群的数量相同subclust已经确定了。如前所述，对于当前数据集subclust确定了3个集群。因此，每个输入和输出将由3个成员函数表示。此外，规则的数量等于集群的数量，因此创建了3个规则。

现在，我们可以探测FIS了解如何在集群内部得到了转换成使用模糊逻辑设计应用隶属函数和规则。

fuzzyLogicDesigner（myfis）

图3：的图形编辑器构建模糊推理系统（FIS）

可以看到，FIS有5个输入和1个输出，输入通过规则库映射到输出（图中的白色框）。

现在，让我们尝试分析如何聚类中心和隶属度函数关系。

mfedit (myfis)

图4：图形会员功能编辑器

mfedit (myfis)启动图形成员资格函数编辑器。也可以通过点击FIS编辑器中的输入或输出来启动fuzzyLogicDesigner。

注意，所有的输入和输出都有3个成员函数。3个成员函数表示由subclust。

FIS中的每个输入表示输入数据集中的一个输入变量达廷FIS中的每个输出表示输出数据集中的一个输出变量DATOUT。

默认情况下，第一隶属函数，in1cluster1，第一个输入的人口将在隶属函数编辑器中选择。请注意，隶属函数类型高斯型(高斯型隶属函数)，隶属函数的参数为[1.162 1.877],在那里1.162条表示高斯曲线的扩散系数和1.877表示高斯曲线的中心。in1cluster1捕获输入变量的第一个集群的位置和影响人口。（C（1,1）=1.877，S（1）=1.1621）

同样，输入变量的其他两个簇的位置和影响人口由其他两个隶属函数被捕获in1cluster2和in1cluster3。

的4个输入，其余遵循确切图案模仿沿着数据集中各自的尺寸3个的簇的位置和影响。

现在，让我们探讨了模糊规则是如何构成的。

ruleedit（myfis）

图5：图形规则编辑器

ruleedit是图形模糊规则编辑器。正如你可以看到，恰好有三个规则。每个规则试图在输入空间中的簇映射到输出空间中的簇。

第一条规则可以简单地解释如下。如果输入到FIS，人口，住宅单位，num车辆，收入，和雇用，强烈属于各自cluster1中然后输出隶属函数，旅行NUM，必须强烈地属于cluster1中成员函数。规则末尾的（1）表示规则的权重或重要性为“1”。权重可以取0到1之间的任何值。权重较小的规则在最终输出中的作用较小。

该规则的意义在于，它简洁地映射在输入空间簇1中的输出空间聚类1。类似地，其它两个规则映射第2组，并在输入空间簇3中的输出空间群集2和第3组。

如果数据点一个更靠近所述第一簇，或在具有强烈的会员资格在第一簇换句话说，作为输入被馈送到myfis那么规则1将激发更多发射强度比其他两条规则。类似地，对第二个集群具有强成员身份的输入将触发第二个规则，该规则的触发强度比其他两个规则强，依此类推。

然后使用规则的输出(激发强度)通过输出成员函数生成FIS的输出。

该FIS的一个输出端，旅行NUM，具有表示由所确定的3个集群3个线性从属关系函数subclust。的线性从属关系函数的系数虽然没有从聚类中心直接服用。相反，他们利用最小二乘估计技术的数据集估计。

在这种情况下，所有3个成员函数都是a*人口+b*居住单元+c*num车辆+d*收入+e*就业+f,在那里一个，b，C，d，Ë和F表示线性隶属函数的系数。点击任何旅行NUM在隶属函数编辑器中观察这些线性隶属函数的参数。