統計量のまとめ
統計に関する色んな量をこのページでまとめておきましょう。
データの「中心」を表す量
というデータがある時の
平均値は
と定義できます。まあこれはいいですね。
また、n個のデータを大きさ順に並べたときにn/2番目に来るようなデータを中央値、一番沢山現れるデータを最頻値といいます。これも名前の通りですんね。
データの「バラつき」を表す量
ある
というデータがどれだけそのデータの中で逸脱しているか、ということは平均と比較すれば評価できます。
別に30点を取っても平均が32点とかならオーライですが、50点取っても平均が98点とかだったら残念ながら赤点ですね。
つまり、あるデータの平均との「逸脱具合」は
とあらわせそうです。2乗になってるのは例えばさっきの平均が32点の例だと「-2点」の逸脱といって「マイナス」の値が出てきてしまうので。
マイナスにばらついてるってなんだよってことなんで、プラスにするため二乗にしました。
さて、一番落ち着いてるのはみんな50点のテストの時です。
これは平均も50なのでさっき言った「逸脱具合」はみんな0です。
逆はクラスが0点と100点に完全に2分されてしまったときです。これはみんな「逸脱具合」が
です。
このような分布の逸脱具合、つまりばらつき具合というのは次のように定式化できます。これを
分散といいます。
としてるのはさっき2乗したからそういう記号を採用しています。これをさらに正の平方根をとった
は
標準偏差と呼ばれています。
記号あれこれ
統計は色々記号が複雑なのでここで整理しておきましょう。
さっきまで
とか、
とか、小文字で『1つの』データについて表しました。
例えば、
点とかですね。
ここで
みたいに大文字で書くと、さっきの例で言えば「あるクラスの点数」といったような抽象的な意味になります。
小文字の
は「誰かさんの点数」という意味でもっと具体的に何かの数値を表しているのでその違いにご注意を。
このような大文字で、抽象的な数を表している
のようなものを
確率変数と言います。
あとさっきまでの平均とか分散に関してはこの確率変数を使って次のように書いたりします。
ここで
とかやるのは意味がないのが分かるでしょうか?
は「ある一人のある一回のテストにおけるデータ」という意味なので平均も糞も無いのです。
対して確率変数
はいわばクラスの代表値なので、ちゃんとクラスの統計量を引き出すのに役立ってくれるわけですね。
javascript plugin Error : このプラグインで利用できない命令または文字列が入っています。
最終更新:2012年11月06日 21:42