主要内容

clusterDBSCAN.estimateEpsilon

估计邻域聚类阈值

自从R2021a

描述

例子

ε= clusterDBSCAN.estimateEpsilon (X,MinNumPoints,MaxNumPoints)返回一个估计的邻居聚类阈值,ε,用于density-based空间聚类的应用程序与噪声(DBSCAN)算法。ε从输入数据计算吗X使用一个k最近的邻居(knn)搜索。MinNumPointsMaxNumPoints设定一个范围kε是计算的值。范围延伸到MinNumPoints- 1通过MaxNumPoints- 1。k是邻居的一个点的数量,这是一个不到点的数量在一个社区。

clusterDBSCAN.estimateEpsilon (X,MinNumPoints,MaxNumPoints)显示一个图显示k神经网络搜索曲线和估计ε。

例子

全部折叠

创建模拟目标数据和使用clusterDBSCAN.estimateEpsilon函数计算一个适当的ε阈值。

创建目标数据xy笛卡儿坐标。

2 X = [randn(20日)+ (11.5,11.5);randn (20, 2) + (25、15);randn (20, 2) + (8、20);兰德(10 * 10,2)+ [20、20]];

设置的值的范围k神经网络搜索。

minNumPoints = 15;maxNumPoints = 20;

估计聚类阈值ε和显示它的值在一个阴谋。

clusterDBSCAN.estimateEpsilon (X, minNumPoints maxNumPoints)

图估计ε包含一个坐标轴对象。坐标轴对象与标题估计ε,包含索引,ylabelε包含20线类型的对象,文本。这些对象代表估计ε,时均ε。

使用估计ε值3.62,clusterDBSCANclusterer运算。然后,绘制集群。

clusterer运算= clusterDBSCAN (“MinNumPoints”6‘ε’,3.62,“EnableDisambiguation”、假);[idx, cidx] clusterer运算(X) =;情节(clusterer运算,X, idx)

图集群包含一个坐标轴对象。坐标轴对象标题集群包含维度1,ylabel维度2包含5线类型的对象,散射,文本。一个或多个行显示的值只使用标记

输入参数

全部折叠

输入特性数据,指定为一个实值N——- - - - - -P矩阵。的N行对应的特征点P维特征空间。的P列包含的值的特征聚类。DBSCAN算法可以用适当的集群任何类型的数据MinNumPointsε设置。例如,一个两列输入可以包含xy笛卡尔坐标,或者范围和多普勒。

数据类型:

的起始值k神经网络搜索范围,指定为一个正整数。MinNumPoints用于指定的起始值吗kk神经网络搜索范围。的起始值k一个小于MinNumPoints

例子:10

数据类型:

最终的价值k神经网络搜索范围,指定为一个正整数。MaxNumPoints用于指定的结束值吗kk神经网络搜索范围。结局的价值k一个小于MaxNumPoints

输出参数

全部折叠

估计ε,作为一个积极的标量返回。

算法

全部折叠

估计ε

DBSCAN聚类需要一个值邻域大小参数ε。的clusterDBSCAN对象和clusterDBSCAN.estimateEpsilon函数使用一个k最近邻搜索来估计一个标量ε。让D任意一点的距离P对其kth最近的邻居。定义一个Dk(P)社区作为社区周围P包含它的k最近的邻居。有k+ 1分Dk(P)社区包括这一点P本身。大纲的估计算法是:

  • 对于每个点,找到所有的点Dk(P)附近

  • 积累的距离Dk(P所有点到一个向量)的社区。

  • 通过增加距离排序向量。

  • 情节的排序k区域图,排序距离对点数量。

  • 找到曲线的膝盖。距离的值在这一点上是ε的估计。

这里的图绘制对点指数显示距离k= 20。膝盖发生在大约1.5。任何低于这个阈值点属于一个集群。任何比这个值是噪音。

有几种方法来找到曲线的膝盖。clusterDBSCANclusterDBSCAN.estimateEpsilon首先定义线连接曲线的第一个和最后一个点。点的纵坐标排序k距离图最远的从线和垂直于行定义了ε。

当你指定一个范围k值,该算法平均估计ε值曲线。这个数字表明,ε相当迟钝kk从14到19。

创建一个单k神经网络的距离图,设置MinNumPoints财产等于MaxNumPoints财产。

选择最小和最大数量的点

的目的MinNumPoints是光滑的密度估计。因为集群是一组最大的density-connected点,选择较小的值,当预期数量的检测在一个集群中是未知的。然而,规模较小的值使DBSCAN算法更容易受到噪声。选择的一般指导方针MinNumPoints是:

  • 一般来说,设置MinNumPoints= 2P在哪里P功能尺寸的数量吗X

  • 的数据集有一个或多个以下属性:

    • 许多噪声点

    • 大量的点,N

    • 大的维数,P

    • 很多重复的

    增加MinNumPoints通常可以提高聚类的结果。

扩展功能

版本历史

介绍了R2021a