主要内容

このページの翻訳は最新ではありません。ここをクリックして,英語の最新版を参照してください。

データ解析

はじめに

データ解析には,いくつかの標準要素があります。

  • 前処理——可能なモデルを同定するために,外れ値,欠損値,平滑化したデータを考える。

  • まとめ——全体的な位置,スケール,データの形状を記述する基本的な統計量を計算する。

  • 可視化——パターンと傾向を確認するために,データをプロットする。

  • モデリング - 新しい値の予测适したデータデータを详しくする记述记述するするする。

データ解析は,以下の2つの基本的なな目,上记のを行い。

  1. 正源

  2. モデルを導く変数間の関係を理解する。

この節では,MATLAB®環境で基本的なデータ解析を行う方法を説明します。

データの前処理

このこのでは,解析解析を前前定理。

概要

データを适切なmatlab®コンテナーコンテナー数に読み込み,“不适切な”データデータととと并べ替えることによりデータ解析を始しますこれこれはははのその后のので意味のある结果结果がが过で意味のある结果结果がられることを保证するためための手顺です。

データの読み込み

はじめに,count.datのデータを読み込みます。

加载count.dat

24行3列の配列数数は3つの交差点それぞれが各列に対応し,ある一日の1時間ごとの交通量を行に含みます。

欠損データ

MATLAB(不是一个数字:数码ではない)ののは通讯,欠损データを表すために使れます。の値は欠損データのある変数が構造体(以下では,3つすべての交点で一致するインデックスをもつ24行1列のベクトル)を維持できるようにします。

关节isnanを用水て,3つ目の交点におけるデータの値をチェックします。

C3 =计数(:,3);十字路口的%数据3c3NaNCount =总和(isnan (c3))
c3NaNCount = 0

isnanは,C3.と同じサイズの逻辑ベクトルを出力します。このベクトルには、データ内の 24 要素のそれぞれについて、の値が现处于するか(1),または现出者(0.)かが記入されています。この場合、logical 値の総和が0.になるので,データに値はありません。

の値は”外れ値”の節でデータに導入されます。

外れ値

外れ値は,それ以外のデータとは傾向が著しく異なるデータ値です。外れ値は,測定誤差により発生したものである場合もあれば、データの重要な特徴を表している場合もあります。外れ値を特定し、それらをどのように取り扱うかは、データとその原因を理解してから決めます。

外れ値を特定するための一般的な方法の1つは,平均 μ から一定数の標準偏差 σ 分享到た探すことです。以下のは, μ η = 1 2 の場合の μ + η σ のラインと共に,3つ目の交差点でデータのヒストグラムをプロットします。

h =直方图(c3, 10);%直方图N = max (h.Values);%最大箱数计数mu3 =意味着(c3);%数据意味着sigma3 = std(c3);数据标准差抓住情节([mu3 mu3], [0 N],'r'“线宽”, 2)%的意思X = repmat (mu3 + (1:2) * sigma3 2 1);Y = repmat ([0; N], 1, 2);情节(X, Y,“颜色”[255 153 51] ./ 255,“线宽”, 2)%标准差传奇(“数据”“的意思是”'stds')举行离开

このプロットから,いくつかのデータが平衡を标准偏差の2倍を超えます离れいるがわかりますますこれらのをますます误差のをます误差で置き換えます。

异常化=(C3  -  MU3)> 2 * Sigma3;C3M = C3;%复制c3到c3mc3m (outliers) =南;%添加纳米值

平滑化とフィルター処理

3つ目の交点でのデータ(“外れ値”で除かれた外れ値をもつ)の時系列プロットは,以下のようになります。

情节(C3M,'O-')举行

20时间でのの値は,プロットにおいてギャップとして現れます。この値の処理は,MATLABのプロット関数の特徴です。

ノイズのあるデータは,期房値がランダムににししモデルを构筑する前,データの主なにを滑らかにするためにデータお勧めし化化するする际际しし化化化化するする际际际し化は,2つの基本的なをします。

——予測変数(時間)と応答(交通量)の関係が滑らかである。

——平滑化アルゴリズムによってノイズが減少するため,推定される期待値が改善される。

matlab关节convnを用いて,単純移動平均平滑化をこのデータに適用します。

跨度= 3;平均窗口的%大小窗口= inter(跨度,1)/跨度;smoothed_c3m = convn(c3m,window,“相同”);h =情节(smoothed_c3m,“ro - - - - - -”);传奇(“数据”'平滑数据'

平滑化の範囲は,変数跨度を用いて制御します。平均化の計算では,平滑化ウィンドウがデータに値をを含むとき,値を返すので,平滑化データのギャップのサイズが増加します。

关节过滤器もデータを平面化するためため使使れます。

smoothed2_c3m =过滤器(窗口、1 c3m);删除(h)情节(smoothed2_c3m“ro - - - - - -”“DisplayName的”'平滑数据');

平滑化データは,以前のプロットからシフトします。“相同”パラメーターを用いたconvnは,データと同じ長さでたたみ込みの中央部分を出力します。过滤器は,データと同じ長さでたたみ込みの初期部分を出力します。それ以外には,アルゴリズムは同じです。

平滑化は,予測の各値において応答値の分布の中心を推定します。このため,多くの近似アルゴリズムの基本的な仮定,“予測の各値での誤差は独立であること”が無効になります。したがって,モデルを“同定“するためには平滑化されたデータを使用しますが,モデルを“近”似するために平滑化されたデータを使用することは避けます。

データのまとめ

このこのでは,データデータまとめる方法をを明します。

概要

多くのMATLAB®関数によって,全体的な位置,スケール,データサンプルの形状を把握することができます。

MATLAB®のの优れた机能1つは,关关1つのつのスカラーだけだけではなくデータ配列配列配列ではなくこのこのことことこのこのははは,关键词“ベクトル化”さされてているとれれれによってによってによってデータををや的问题问题を表すや的问题问题さされや的を问题たれれや的を问题た的的的なり能能能的なり

位置の測度

”“標準的な値を見つけることによりデータサンプルの位置を把握します。位置または”中心傾向“の通常の計測は,関数的意思是中位数および模式により计算されます。

加载count.datx1 =平均(数)
x1 =1×332.0000 46.5417 65.5833
x2 =平均(数)
x2 =1×323.5000 36.0000 39.0000
x3 =模式(计数)
x3 =1×311 9 9

他の統計関数と同様に,上記のMATLAB®関数は変数を列に保持しながら,観測値ごとにデータを行にまとめます。関数は3つの交差点それぞれでのデータの位置を1回の呼び出しで計算します。

スケールの尺度

データサンプルのスケールまたは”ばらつき”を測定する多くの方法があります。MATLAB®関数最大限度最小值性病およびvarはいくつかの一般的な測定値を計算します。

dx1 = max (count)分钟(计数)
dx1 =1×3107 136 250
dx2 = std(count)
dx2 =1×325.3703 41.4057 68.0281
dx3 = var(计数)
dx3 =1×3103.× 0.6437 1.7144 4.6278

他の統計関数と同様に,上記のMATLAB®関数は変数を列に保持しながら,観測値ごとにデータを行にまとめます。関数は3つの交差点それぞれでのデータのスケールを1回の呼び出しで計算します。

分布の形状

分布の形状は,分布の位置またはスケールに比べ明しし难い.matlab®关のヒストグラムのプロットは,概要を視覚的に表します。

stay steg(count)图例(“十字路口1”...《十字路口2》...《十字路口3》

パラメトリックモデルでは,分布の形状の解析的に把握できます。データ平均のパラメーターμをもつ函数分布は,贯通量のデータ选択として适切です。

C1 =计数(:,1);十字路口1的%数据1[bin_counts,bin_locations] = hist(c1);bin_width = bin_locations(2) -  bin_locations(1);hist_area =(bin_width)*(sum(bin_counts));图Hist(C1)保持mu1 =意味着(c1);exp_pdf = @ (t) (1 / mu1) * exp (- t / mu1);%集成% 1t = 0:150;y = exp_pdf (t);情节(t, (hist_area) * y,'r'“线宽”2)传说(“分布”“指数符合”

一般のパラメトリックモデルをデータ分布に近似する方法は,この節では取り扱いません。统计和机器学习工具箱™ソフトウェアでは,分布パラメーターの最尤推定値を計算する関数が提供されています。

データの可催化

概要

データのパターンと倾向を可调するに,多重の种类のmatlabグラフを利用できでき図,异なる节述べる散散量によって,异なる交差点のの交量のデータツール可使でき。の个々々のデータ点を参照し,対话形式での操作业が。

メモ

この节では,データのまとめのデータ解析を続けます。

2次元散布図

关节散射で作成される2次元散布図は,最初の2つの交差点における交通量の関係を説明します。

加载count.datC1 =计数(:,1);十字路口1的%数据1C2 =计数(:,2);十字路口的%数据2图分散(C1,C2,'填充')包含(“十字路口1”) ylabel (《十字路口2》

关节COV.で計算される"共分散"は2変数間の線形関係の強さを測定します。散布図から最小二乗線に沿ってデータがどれほど密にあるかを評価します。

C12 = COV([C1 C2])
C12 =2×2103.× 0.6437 0.9802 0.9802 1.7144

结果は,対称正方行列表示されます。(i,j)番目の位置の要素は,i番目番目函数とj番目番目ののの共共です.i番目の要素は,i番目番目のののはは。分享です。

共分散は,個々の変数の測定に用いる単位に依存するという不都合があります。共分散の値は,変数の標準偏差で除算することで+ 1と1の間に正規化できます。关节corrcoefでは“相関係数”を計算します。

R12 = corrcoef([c1 c2])
R12 =2×21.0000 0.9331 0.9331 1.0000
R12 = R12(1,2)%相关系数
r12 = 0.9331
r12sq = r12 ^ 2%确定系数
r12sq = 0.8707

相关系数の値正式化さてので,交差点の他组の値とにできます。“决定决定数”は,最小二乘ラインからのをを,决定决定は応答(この决定系は応答(この决定系は応答)におけるにおけるののであり,散散のであり,散布図されるか,または最小二乘ラインによって的にに明さます。

3 次元散布図

关节scatter3で作成される3次元散布図は,3つの交差点すべてにおける交通量間の関係を示します。前の手順で作成した変数C1.C2.C3.を使用します。

图c3 = count(:,3);十字路口的%数据3散射3(C1,C2,C3,'填充')包含(“十字路口1”) ylabel (《十字路口2》)Zlabel(《十字路口3》

关节eig.で共分类行为の固値をによりによりにより系关键词关键词

Vars = eig(cov([c1 c2 c3]))
var =3×1103.× 0.0442 0.1118 6.8300
解释= max (var) / (var)和
解释= 0.9777

固有値は,データの“主成分“の分散です。変数解释は,データの軸に沿った,第1主成分によって説明される変動の割合を測ります。2次元散布に対する決定係数とは異なり、この尺度では予測変数と応答変数が区別されます。

散布図配列

关节Plotmatrix.を使用して,交差点の複数の組間の関係を比較します。

图plotmatrix(计数)

配列の(i, j)番目の位置のプロットは,垂直軸上の我番目と水平軸上のj番目の変数の散布図です。我番目の対角位置のプロットは,我番目の変数のヒストグラムです。

グラフ内のデータの探査

ほとんどのmatlabグラフグラフ観测値は,图ツールバーの2つのツールツール利用してで选択できます。

  • データカーソル

  • データのブラシ選択

これらの各ツールはどれも探查モードでの利用となり,そこでグラフ上のデータ点を选択して値を确认したり,特定の観测値を含むワークスペース変数を作成したりできます。データのブラシ选択ををた结合,选択した観测値の,削除削除置き换えも可です。

たとえば,数数の第1列と第3列の散布図を作成します。

加载count.dat散射(计数(:,1),count(:,3))
データカーソルツールを选択し,右端のデータ点をしますののyの値するデータは,以するデータ,以下にあり。

既定の設定では,データヒントにはx座標,y座標およびz座標(3次元プロットの場合)が表示されます。あるデータ点から他のデータ点にデータをドラッグして新規の値を見るか,データを右クリックしてコンテキストメニューを利用して,データヒントを追加します。MATLABコードを使用して,データヒントで表示するテキストをカスタマイズすることもできます。

“データのブラシ选択”は,クリックまたはドラッグによって,グラフ上の1つまたは複数の観測値を強調表示できるようにした関連機能です。データのブラシ選択モードに入るには,图ツールバーで,[データのブラシ選択]ツールの左侧をクリックします。ツールアイコンの右侧の矢印をクリックすると,観测値のカラーを选択するためのドロップダウンのカラーパレットが开きます。次の图は前の图と同じ散布図ですが,标准偏差偏差を超えるすべてすべての観测([ツール][データの统计]Guiにより特价)ががでブラシ选択されてます。

散射(计数(:1)计数(:,3))

データの観測値をブラシ選択した後,次の操作を実行できます。

  • データの観测の削除

  • データの観測を定数値で置き換え

  • データの観測を南値で置き換え

  • データの観測を,コマンドウィンドウにドラッグ,コピー,貼り付け

  • データデータの観测ををワークスペーススペースとしてとして

たとえば,データデータのブラシ选択选択コンテキストメニュー[ツール][ブラシ选択][新闻数号作物]オプションを使用して,count13highと呼ばれる新しい変数を作成します。

ワークスペースの新しい変数は,次のようになります。

COUNT13HIGH COUNT13HIGH = 61 186 75 180 114 257

“リンク付きプロット”または“データリンク”は,データのブラシ選択に関連する機能です。プロットは,プロットが描くワークスペースデータに応答する接続をもつ場合に,リンクしているといわれます。オブジェクトのxdata.YData(必要に応じてZData)に保存されたたたはは,これらがリンクしているスペーススペースががまたは削除ととれますますますますますますますますますますますます。ます。

変に表示プロットをと,さまざまな表示で特定観测されトラックできます点ブラシれプロットのデータブラシブラシするする场选択ととのグラフブラシ选択する,同じ同じににリンクてとと各上涨の観测値が表示ささます。

データリンクは,変数エディターがワークスペース変数とやりとりするのと同じように,图とワークスペース変数の2方向の直接のやりとりを確立します。图のツールバー上にあるデータリンクツールをアクティブにしてリンクを作成します。このツールをアクティブにすると、次の図に示すリンク プロットのメッセージ バー (おそらくタイトルは非表示) がプロットの上部に表示されます。プロットとリンク解除せずに (以下の図に示す) メッセージ バーを非表示にできます。この場合、メッセージ バーは表示されず、Figure と共に保存されません。

以下の2つのグラフは,左のグラフのいくつかの観測値をブラシ選択した後,リンクしたデータの散布図を表します。共通の変数数数は,右の图にブラシ選択のマークを置きます。右のグラフは,データのブラシ選択モードではなくても,その変数にリンクしているのでブラシ選択のマークを表示します。

图分散(count(:,1),count(:,2))xlabel('count(:,1)')ylabel('count(:,2)')图分散(计数(:,3),计数(:,2))Xlabel('count(:,3)')ylabel('count(:,2)')

.

ブラシ選択されたデータ観測値は,次に示すように,変数エディターにこれらの変数を表示すると,ブラシカラーで強調表示されます。

openvar计数

変数エディターにおいて,リンクしたプロットデータの任意の値を変更でき,グラフが編集結果を反映します。変数エディターからデータ観測値をブラシ選択するには,[ブラシ選択ツール]ボタンをクリックします。ブラシ選択した変数がリンクプロットに現在描かれている場合には,ブラシ選択した観測値は変数エディター同様,プロットでも強調表示されます。行列の列である変数をブラシ選択すると,その行内のその他の列もブラシ選択されます。つまり,行ベクトルまたは列ベクトル内の個々の観測値のブラシ選択はできますが,クリックした観測値だけでなく,行列内のすべての列がブラシ選択行で強調表示になります。

データのモデリング

概要

パラメトリックモデルは关键词しし内容へと変换ますもつデータツールまたは変换しに対して解析データまたはまたはトレンドに対してをにまたはまたはまたは。

多項式回帰

关节Polyfit.をを用してし多项式モデルののををしし,次次,关联polyvalを使用して予測子の任意の値でモデルを評価します。

00

加载count.datC3 =计数(:,3);十字路口的%数据3tdata =(桥);p_coeffs = polyfit (tdata c3 6);图绘图(C3,'O-')举行tfit = (1:0.01:24) ';Yfit = Polyval(P_Coeffs,TFIT);情节(TFIT,YFIT,'r-'“线宽”2)传说(“数据”“多项式适合”“位置”“西北”

この,単纯ながら上下のトレンド追従,特点データ両端など,予测予测力の精密に疑问があります。

一般線形回帰

データには12時間の周期があり,7時付近にピークがあることを仮定すると,次の形の正弦波モデルで近似するのが適切です。

y = 一种 + B. COS. 2 π / 12 T. 7.

係数一种B.は直線的に表示されます。MATLAB®mldivide(バックスラッシュ)演算子を使用して一般的な線形モデルへ近似します。

加载count.datC3 =计数(:,3);十字路口的%数据3tdata =(桥);x = [α(大小(tdata))cos((2 * pi / 12)*(tdata-7))];s_coeffs = x \ c3;图绘图(C3,'O-')举行tfit = (1:0.01:24) ';yfit =[(大小(tfit)因为((2 *π/ 12)* (tfit-7))) * s_coeffs;情节(TFIT,YFIT,'r-'“线宽”2)传说(“数据”'sinusoidal fit'“位置”“西北”

关节LSCOV.をを使し,系数の推定误差や平等二乘误差など,近似の统计などを计算ます。

[s_coeffs,stdx,mse] = lscov(x,c3)
s_coeffs =2×165.5833 - 73.2819
stdx =2×18.9185 - 12.6127
MSE = 1.9090E + 03

データの12时间间隔隔仮定を,关节fftをを用して计算した”“ピリオドグラムによって確認します。

FS = 1;%采样频率(每小时)n =长度(C3);%的窗口长度Y = fft (c3);%DFT数据f = (0: n - 1) * (Fs / n);%频率范围P = Y *连词(Y) / n;DFT的%力量图绘制(f P)包含('频率') ylabel (“权力”

predicted_f = 1/12
predicted_f = 0.0833

0.0833これはわずかにます,これはわずかてい。

参考

|||||||||||||||||||||