分散共分散行列

分散の別表記

突然ですが、次のような公式（？）が成り立ちます。
$V(X)=E( (X-E(X))^2) \cdots (1)$
見ると嫌な気持ちになる式ですが順を追えばそうむずかしいことはないです。

$E(X)$ はそれまでの通り平均値です。ですので右辺は $E((X-\mu)^2)$ とも書けますね。
それでも $E(\cdot )$ の中身がエライことになってることですが、要するに平均というのは
「ある確率変数の総和を、個数で割ってください」
ということなので、 $(x_k-\mu)^2$ を $k$ について全部足して、その個数 $n$ で割ってやればいいのです。これを式で書けば
$E( (X-E(X))^2)=\frac{1}{n}\sum_{k=1}^n (x_k-\mu)^2$
何のことはない、分散の定義式ですね。よって式(1)が成立することが分かります。

二つの確率変数の「類似度」を表す量

前項までは「ある生徒」に対して「一つの点数」が決まっていました。
ここで、中間テストなんかだと色んな教科のテストを受けますよね。
例えばある生徒の「数学の出来具合」と「英語の出来具合」には相関があるんだろうか、ということを調べたい場合。
つまりある教科が得意な生徒は他の教科も同様に得意なんだろうかということを調べたい場合、次のような共分散という量を使い評価します。
$\mathrm{Cov}(X,Y)= E( (X-E(X)(Y-E(X)) \cdots (2)$

これも前の節の説明を踏まえて考えてみます。
いわば「出来具合」みたいなものは平均からの差で分かるわけです。
つまり、確率変数 $X$ －例えば数学の点数－の「出来具合」は $X-E(X)$ で表せるということです。同様に確率変数 $Y$ については $Y-E(Y)$ ですね。
この数字が相関しているかどうかの「相関度」はこれらを掛け算 $(X-E(X))(Y-E(X))$ してやればわかりそうです。例で考えましょうか。

例えば $x_1$ が平均より+1点、 $y_1$ が平均より+2点だったとすれば、相関度は+2ですね。この人は数学も英語もやや良いようです。
次に $x_2$ が平均より+10点、 $y_2$ が平均より+20点だったとすれば相関度は+200。スゴイ相関です。
逆に、 $x_3$ が平均より-20、 $y_3$ が平均より-10だったとすれば相関度は+200。両方とも悪いっていう残念な相関性です。

対して、 $x_4$ が平均より+10だったのに、 $y_4$ が-10点だった、つまり「似ていない」というような場合の相関度は-100ですね。
このような逆向きの相関のことは負の相関といいます。
バラつきと違って、「傾向が似ている」「傾向がない」「逆の傾向がある」という意味で正と負の方向があるのに注意してください。

さ～てこんな感じで5番目の人の相関度、6番めの人の相関度を足していけば全体的な傾向が得られそうですね。つまり
$E( (X-E(X))(Y-E(X)))$
という式で２つの確率変数の「類似度」が表せそうです。これが共分散ですね。

分散と共分散の式の類似性

式(1)と式(2)、実はよく似ています。式(1)の2乗を展開してこんな感じにするともっとわかりやすいでしょうか。
$V(X)=E( (X-E(X))(X-E(X))) \cdots (1)'$
$V(X)=E( (X-E(X))(Y-E(Y))) \cdots (2)$
つまり、分散はその確率変数自身との共分散ということになるでしょうか。

分散共分散行列

さあさあ、今までは2つの確率変数 $X$ と $Y$ について考えてきましたが次はもっと拡張して $n$ 個の確率変数 $X_1, X_2, \cdots, X_n$ についての情報を統括したようなものを考えてみます。
それが次の分散共分散行列Cです。

$C = \begin{bmatrix}\mathrm{E}[(X_1 - \mu_1)(X_1 - \mu_1)] & \mathrm{E}[(X_1 - \mu_1)(X_2 - \mu_2)] & \cdots & \mathrm{E}[(X_1 - \mu_1)(X_n - \mu_n)] \\ \\\mathrm{E}[(X_2 - \mu_2)(X_1 - \mu_1)] & \mathrm{E}[(X_2 - \mu_2)(X_2 - \mu_2)] & \cdots & \mathrm{E}[(X_2 - \mu_2)(X_n - \mu_n)] \\ \\\vdots & \vdots & \ddots & \vdots \\ \\ \mathrm{E}[(X_n - \mu_n)(X_1 - \mu_1)] & \mathrm{E}[(X_n - \mu_n)(X_2 - \mu_2)] & \cdots & \mathrm{E}[(X_n - \mu_n)(X_n - \mu_n)] \end{bmatrix}$