Table of Contents
10人の生徒が、ある100点満点の試験を受けました。
試験の結果、平均点が50点だったことが発表されました。
(このページでいう「平均」とは算術平均のことです)
受験者の一人であるAさんは、平均点と同じ点数である50点を取っていました。
そこで、Aさんは試験結果について「みんな大体50点近くだったんだなぁ」と思い、次のような結果を想像しました。
表1
受験者 | A | B | C | D | E | F | G | H | I | J |
---|---|---|---|---|---|---|---|---|---|---|
得点(点) | 50 | 52 | 53 | 48 | 44 | 56 | 42 | 55 | 45 | 55 |
しかし、実際の試験結果は全く違っていました。実際には、次の表のようになっていました。
表2
受験者 | A | B | C | D | E | F | G | H | I | J |
---|---|---|---|---|---|---|---|---|---|---|
得点(点) | 50 | 75 | 75 | 75 | 75 | 75 | 75 | 0 | 0 | 0 |
この試験は、本来であれば75点が平均となる難易度で作られていました。
実はHさん、Iさん、Jさんは試験開始直後に寝てしまったため、全く答案を書かずに試験が終了してしまい0点となったのでした。
つまり、実際にはAさんの答案はあまり良い出来ではなかったのです。
平均だけでは数値の分布はわからない
上の2つの表の各平均値はどちらも50点です。しかし、その内訳は全く異なっていました。
平均値だけでは、値がどのように散らばっているかということまではわかりません。
この値の散らばりを調べるために考えられたのが分散です。
分散とは
分散とは、各値がどれだけ平均値から離れているかを調べるための指標です。
分散は「平均値と各値との差 を二乗した値の平均」です。この値が大きくなるほど、各値は平均からかけ離れているということになります。
値を二乗する理由は、平均値より低い値と高い値がある場合、平均値と各値との差を単純に足すと打ち消しあってしまうためです。
単純化した例を示します。
そのまま足す場合
$$(52 – 50) + (48 – 50) = 2 + (-2) = 0$$
二乗して足す場合
$$(52 – 50)^2 + (48 – 50)^2 = 4 + 4 = 8$$
分散を求める式
数値の個数が $N$個、平均値が $\bar{X}$ であるとき、分散を求める公式は以下のように表せます。
$$\frac{1}{N – 1} \displaystyle \sum_{ i = 1 }^{ N } (X_i – \bar{X})^2$$
全体を $N-1$ で割るときは、平均値 $\bar{X}$ を、分散を求める時に使うのと同じデータから求めた時とされています。これは不偏分散と呼ばれます。
初めから平均値が別にわかっているなら、全体を $N$、つまり数値の個数で割るようです。
同じデータから平均と分散を両方求めるなら,平均を求めた時点で自由度を一つ使ってしまっているので,分散は $n−1$ で割ります。平均が別に与えられているなら $n$ で割ります。
数学的な話が続いてしまいましたが,要するに,$X$ の平均 $μ$ が最初からわかっている場合は,分散は
$$\frac{1}{n} \displaystyle \sum_{ i = 1 }^{ n } (X_i – μ)^2$$
で求め,同じデータから求めた平均 $\bar{X}$ を使う場合は
$$\frac{1}{n – 1} \displaystyle \sum_{ i = 1 }^{ n } (X_i – \bar{X})^2$$
で求めるのが正しいのです。しかし,高校の数学の教科書では $n−1$ の説明が難しいのでこれらを区別せずにつねに $n$ で割っています。違いは小さいので,目くじらをたてるほどのことではありませんが,大学ではちゃんと区別しましょう。
三重大学 奥村研究室 統計の基礎
より厳密な証明は以下のサイトをご覧ください。
静岡理工科大学 情報学部 コンピュータシステム学科・知能インタラクション研究室 不偏分散
表1の分散を実際に求めてみると、次のようになります(長くなるので一部省略)。
今回は平均値を、分散を求める際に用いるデータから求めたので、$N – 1 = 10 – 1 = 9$ で割ります。
$$\frac{(50 – 50)^2 + (52 – 50)^2 + (53 – 50)^2 + … + (45 – 50)^2 + (55 – 50)^2}{10 – 1} = 25.3$$
同じように表2の分散を求めてみると、
$$\frac{(50 – 50)^2 + (75 – 50)^2 + (75 – 50)^2 + … + (0 – 50)^2 + (0 – 50)^2}{10 – 1} = 1250$$
値のばらつきが大きい表2の方が、分散も大きい値になっていることがわかります。
分散は、次回紹介する予定の標準偏差を求める際の基本となります。