離散コサイン変換

打折定義

離散コサイン変換（DCT）は、さまざまな大きさと周波数からなる正弦波の和として、イメージを表現します。関数dct2は、イメージの 2.次元離散コサイン変換（DCT）を計算します。打折は、標準のイメージについて、視覚的に重要な情報のほとんどが、打折の数個の係数に集中しているという性質をもっています。このため、打折はイメージ圧縮の用途にしばしば使用されます。たとえば、打折は、JPEGとして知られている国際標準の非可逆画像圧縮アルゴリズムで中心的な機能を果たしています (この名前は、この標準を策定したワーキンググループの名前、联合摄影专家组に因んで付けられています)。

M行 N列の行列A.の 2.次元打折は、次のように定義されます。

$\begin{array}{l} \begin{matrix} B_{P Q} = α_{P} α_{Q} \sum_{M = 0}^{M - 1.} \sum_{N = 0}^{N - 1.} {A.}_{M N} 余弦 \frac{π (2. M + 1.) P}{2. M} 余弦 \frac{π (2. N + 1.) Q}{2. N}, & \begin{array}{l} 0 \leq P \leq M - 1. \\ 0 \leq Q \leq N - 1. \end{array} \end{matrix} \\ \begin{matrix} α_{P} = {\begin{cases} 1. / \sqrt{M}, \\ \sqrt{2. / M}, \end{cases} & \begin{array}{l} P = 0 \\ 1. \leq P \leq M - 1. \end{array} & α_{Q} = {\begin{cases} 1. / \sqrt{N}, \\ \sqrt{2. / N}, \end{cases} & \begin{array}{l} Q = 0 \\ 1. \leq Q \leq N - 1. \end{array} \end{matrix} \end{array}$

B_pqの値はA.の“DCT係数" と呼ばれています（MATLAB）^®の行列インデックスは、0からでなく 1.から始まります。このため、MATLABの行列の要素A（1,1）およびB（1,1）は、数学上の量としてはA.₀₀およびB₀₀に対応します)。

打折は、逆変換も可能で、次の式で表せます。

$\begin{array}{l} \begin{matrix} {A.}_{M N} = \sum_{P = 0}^{M - 1.} \sum_{Q = 0}^{N - 1.} α_{P} α_{Q} B_{P Q} 余弦 \frac{π (2. M + 1.) P}{2. M} 余弦 \frac{π (2. N + 1.) Q}{2. N}, & \begin{array}{l} 0 \leq M \leq M - 1. \\ 0 \leq N \leq N - 1. \end{array} \end{matrix} \\ \begin{matrix} α_{P} = {\begin{cases} 1. / \sqrt{M}, \\ \sqrt{2. / M}, \end{cases} & \begin{array}{l} P = 0 \\ 1. \leq P \leq M - 1. \end{array} & α_{Q} = {\begin{cases} 1. / \sqrt{N}, \\ \sqrt{2. / N}, \end{cases} & \begin{array}{l} Q = 0 \\ 1. \leq Q \leq N - 1. \end{array} \end{matrix} \end{array}$

逆打折方程式は、任意の M行 N列の行列A.が、

$α_{P} α_{Q} 余弦 \frac{π (2. M + 1.) P}{2. M} 余弦 \frac{π (2. N + 1.) Q}{2. N}, \begin{matrix} 0 \leq P \leq M - 1. \\ 0 \leq Q \leq N - 1. \end{matrix}$

形式の関数锰の和として記述できることを意味するものとして解釈できます。

これらの関数は、打折の"基本関数"と呼ばれます。このため、打折係数B_pqは、各基底関数に適用された"重み" と見なすことができます。8.行 8.列の行列に対して、64個の基本関数が、このイメージにより示されます。

8.行 8.列の行列の 64個の基本関数

水平周波数は左から右方向へ増加し、垂直周波数は上から下へ増加します。左上の定数値基底関数は、“DC基底関数" と呼ばれ、対応する打折係数B₀₀は、多くの場合“DC係数" と呼ばれます。

打折変換行列

图像处理工具箱™ ソフトウェアを使用して打折を計算する方法は 2.つあります。最初の方法は、関数dct2を使用します。dct2は、快速傅里叶变换ベースのアルゴリズムを使用して、大きな入力を高速で処理できます。2.番目の方法は、打折"変換行列"を使う方法です。この行列は、関数dctmtxから出力され、小さい正方行列、たとえば、8.行 8.列や 16行 16列の行列に対しては、非常に効率的なものです。M行 M列の変換行列Tは、次のように表すことができます。

$\begin{matrix} T_{P Q} = {\begin{cases} \frac{1.}{\sqrt{M}} \\ \sqrt{\frac{2.}{M}} 余弦 \frac{π (2. Q + 1.) P}{2. M} \end{cases} & \begin{array}{l} P = 0, \\ 1. \leq P \leq M - 1., \end{array} & \begin{array}{l} 0 \leq Q \leq M - 1. \\ 0 \leq Q \leq M - 1. \end{array} \end{matrix}$

M行 M列の行列A.に対して、T*Aは、A.の各列の 1.次元の打折を各列に含む M行 M列の行列になります。A.の 2.次元の打折は、B=T*A*T'として計算できます。Tが実数直交行列なので、その逆はその転置と同じものになります。そのため、Bの 2.次元逆打折は、T'*B*Tで与えられます。

離散コサイン変換を使用したイメージ変換

ライブスクリプトを開く

この例では、離散コサイン変換（DCT）を使用してイメージを圧縮する方法を説明します。この例は、入力イメージの 8.行 8.列のブロックの 2.次元打折を計算し、各ブロックにある 64の打折係数のうち 10個以外のすべてを 0に置き換えます。そして、各ブロックの 2.次元逆打折を使用して、イメージを再構成します。この例は変換行列の計算法を使用しています。

打折は JPEGイメージ圧縮アルゴリズムで使用されます。入力イメージは 8.行 8.列または 16行 16列のブロックに分割され、各ブロックの 2.次元打折が計算されます。打折係数は、続いて量子化、暗号化されて送信されます。JPEGレシーバ (または、JPEGファイルリーダー) は、量子化した打折係数を復号し、各ブロックの 2.次元逆打折を計算し、その結果を集めて 1.つのイメージを作成します。一般的なイメージでは、打折係数の多くは、ほとんどゼロに近い値になります。これらの係数は再構成後のイメージの質に大きな影響を与えないので、切り捨てることができます。

イメージをワークスペースに読み取って双重的クラスに変換します。

I=imread(“摄影师，tif”)；I=im2倍（I）；

イメージ内にある 8.行 8.列のブロックの 2.次元打折を計算します。関数dctmtxは N行 N列の打折変換行列を返します。

T=dctmtx（8）；dct=@（block_struct）T*block_struct.data*T'；B=blockproc（I[8]，dct）；

各ブロックにある 64の打折係数のうち 10個以外のすべてを切り捨てます。

掩码=[1 1 1 1 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]；B2=块过程（B，[8 8]，@（块结构）掩码。*块结构数据）；

各ブロックの 2.次元逆打折を使用してイメージを再構成します。

invdct=@（block_struct）T'*block_struct.data*T；I2=blockproc（B2[8]，invdct）；

元のイメージと再構成後のイメージを左右に並べて表示します。再構成イメージに質的な低下が見られますが、打折係数の約 85% を切り捨てたにもかかわらず、はっきりとイメージを認識できます。

imshow（I）

图中包含一个轴。这些轴包含一个image类型的对象。

图imshow（I2）

图中包含一个轴。这些轴包含一个image类型的对象。

離散コサイン変換

打折定義

打折変換行列

離散コサイン変換を使用したイメージ変換

图像处理工具箱ドキュメンテーション

サポート

MATLABで始めるディープラーニング