要可视化大型数据集,需要对数据进行汇总、分类或以某种方式进行采样,以减少绘制在屏幕上的点的数量。在某些情况下,函数如柱状图
和派
箱为减少尺寸的数据,而其他功能如阴谋
和散射
使用更复杂的方法,避免在屏幕上绘制重复像素。对于像素重叠与分析相关的问题,Binscatter.
函数还提供了一种可视化密度模式的有效方法。
可视化高阵列不是要求使用收集
。马铃薯®立即评估和显示高阵列的可视化。目前,您可以使用此表中的函数和方法可视化高阵列。
函数 | 必需的工具箱 | 笔记 |
---|---|---|
阴谋 |
- | 这些功能在迭代中绘图,随着读取更多数据逐渐添加到曲线。在更新期间,进度指示符显示绘制的数据的比例。在更新过程中支持缩放和平移,在绘图完成之前。金宝app要停止更新过程,请按进度指示符中的暂停按钮。 |
散射 |
- | |
Binscatter. |
- | |
柱状图 |
- | |
直方图2 |
- | |
派 |
- | 仅用于可视化分类数据。 |
binScatterPlot (统计和机器学习工具箱) |
统计和机器学习工具箱™ | 图包含一个滑块,用于控制图像中的亮度和颜色细节。滑块调整值的值 |
ksdensity (统计和机器学习工具箱) |
统计和机器学习工具箱 | 生成数据的概率密度估计,在单变量数据的100点处评估,或者为二元数据的900分。 |
datasample. (统计和机器学习工具箱) |
统计和机器学习工具箱 |
|
这个例子展示了几种可视化高数组的不同方法。
创建一个数据存储airlinesmall.csv
数据集,其中包含航空公司飞行数据的行。选择表变量的子集进行工作,并删除包含缺失值的行。
ds = tabulartextdataStore(“airlinesmall.csv”那'尾声'那“NA”);ds。SelectedVariableNames = {'年'那'月'那“ArrDelay”那'depdelay'那“起源”那“桌子”};t =高(DS);t = rmmissing(t)
T = MX6高表年份Arrdelay Depdelay Origin ext________________________________________________________________ 1987 10 8 12 {'lax'} {'sjc'} 1987 10 8 1'san'} {'smf'} 1987 10 13 12 {'bur'} {'sjc'} 1987 10 4 -1 {'smf'} {'lax'} 1987 10 59 63 {'lax'} {sjc'} 1987 10 3 -2 {'san'} 1987 10 11 -1 {'sea'} :::::::::::::::::::::
按月划分的航班饼图
转换数字月
变量转换为反映月份名称的分类变量。然后绘制一个饼图,显示每年有多少航班的航班。
T.Month =分类(T.Month,1:12,{“1月”那2月的那'Mar'那4月的那'可能'那'君'那'七月'那'八月'那'九月'那“10月”那'11月'那12月的})
T = Mx6高表年月ArrDelay DepDelay起源服务台 ____ _____ ________ ________ _______ _______ 1987 10月8 12{“宽松”}{‘SJC} 1987 10月8 1{‘SJC}{“钻”}1987年10月21日20{‘圣’}{SMF的}1987年10月13日12{“钻”}{‘SJC} 1987 10月4 1 {SMF的}{“宽松”}1987 10月59 63{“宽松”}{‘SJC} 1987 10月3 2{‘圣’}{“旧金山”}1987年10月11日1{‘海’}{“宽松”}:: : : : : : : : : : :
饼(t.month)
使用本地MATLAB会话评估高表达式:-通过2中的1:在1.5秒完成-通过2中的2:在1.2秒完成评估在3.4秒完成
延迟的直方图
绘制数据的到达延迟的直方图。由于数据具有长尾,因此使用该数据的限制绘图区域滨藏
名称值对。
直方图(T.Arrdelay,“BinLimits”,[ - 50 150])
使用当地MATLAB会话评估高表达: - 通过2的第1条:在2.8秒内完成 - 通过2的2:1秒内完成,在1.1秒评估中完成4.7秒
延迟散点图
绘制抵达和离开延误的散点图。您可以期待这些变量之间的强烈相关性,因为迟到的航班也可能迟到。
在高阵列上运行时,阴谋
那散射
,Binscatter.
函数在迭代中绘制数据,当读取更多数据时逐步添加到图中。在更新期间,图的顶部有一个进度指示器,显示绘制了多少数据。在情节完成之前的更新期间,支持缩放和平移。金宝app
散射(T.ArrDelay T.DepDelay)包含(“延误”) ylabel ('离开延迟') xlim([-140 1000])
进度条还包括一个暂停/简历按钮。一旦显示了足够的数据,请使用该按钮尽早停止绘图更新。
健康趋势线
使用Polyfit.
和polyval
在抵达和出发延迟的情节上叠加线性趋势线的功能。
抓住在p = polyfit (T.ArrDelay T.DepDelay 1);x = (T.ArrDelay, 1);yp = polyval (p (x);情节(x, yp,'r-')举行从
可视化密度
在某一点上,点的散点图是有用的,但是如果点大量重叠,则很难从图中解读信息。在这种情况下,它有助于可视化图中点的密度来发现趋势。
使用Binscatter.
功能,以可视化的点密度在阴谋的到达和离开延误。
binscatter(t.arrdelay,t.depdelay,'xlimits',[ - 100 1000],'ylimits',[-100 1000]) xlim([-100 1000]) ylim([-100 1000])“延误”) ylabel ('离开延迟')
调整这一
属性,以便所有大于150的箱子值的颜色相同。这可以防止一些具有非常大的值的箱子在区域中占主导地位。
甘氨胆酸ax =;斧子。CLim = [0 150];