【統計学入門】代表値をまとめて紹介平均値・中央値・最頻値・標準偏差を紹介

代表値とは、データの中心を表す指標です。
データを様々な数式で計算し、1つの値で要約したものとなります。
その中でも、頻出のものを解説していきます。

平均値：データの合計をデータの個数で割った値
中央値：データの値を大きさで並べたときの真ん中の順位の値
最頻値：最も現れる回数が多い値
標準偏差：データの分布のバラつきを数値化

平均値：データの合計をデータの個数で割った値

代表値の中でも最も使用されるものは、平均値です。
平均値を求めることで、データの値の大きさを把握することが出来ます。
データ分析の際には、必ずと言っていいほど使用されます。
平均値の厳密な定義は以下となります。

$ n $個のデータ$ (x_1, \cdots , x_n) $に対して、
$$ \bar{x} = \frac{1}{n} \sum^{n}_{i=1}x_i $$
を平均値といいます。

メリット
・データの値の大きさを把握できる
・すべての量的データで算出できる
・意味を理解しやすい
デメリット
・外れ値（極端に大きい、小さい値）がある場合、平均値が頻出する数値と離れてしまう

中央値：データの値を大きさで並べたときの真ん中の順位の値

平均値には、外れ値による影響を受けるというデメリットがあります。
そこで、外れ値による影響を受けにくい代表値の1つが中央値です。
厳密な定義は以下になります。

データ $ (x_1, \cdots , x_n) $に対して、大きさの順に小さいものから並び替えたものを
$$ x_{(1)} \leq x_{(2)} \leq \cdots \leq x_{(n)} $$
と表し、$ x_{(i)} $を$ i $番目の順序統計量といいます。
また、$ x_{(1)} $は最小値、$ x_{(n)} $を最大値となります。

このとき、データの中でちょうど真ん中の順位の値を中央値といいます。
ここで、データ数が奇数の時は、ちょうど真ん中の値を出すことが出来ます。
しかし、データ数が偶数の時は、真ん中2つの値の平均を中央値とします。
従って、中央値は
$$ \mathrm{med} \{ x_1, \cdots, x_n \}= \begin{cases} x_{(\frac{n+1}{2})} & ( nが奇数の時 ) \\ \frac{1}{2} \{ x_{(\frac{n}{2})} + x_{(\frac{n}{2}+1)} \} & ( nが偶数の時 ) \end{cases} $$
と定義されます。

メリット
・外れ値による影響を受けにくい
・すべての量的データで算出できる
・意味を理解しやすい
デメリット
・データのすべての値で計算していないため、データ全体の特徴を表していない

最頻値：最も現れる回数が多い値

データ$ (x_1, \cdots x_n) $において、重複する値が存在する場合、最も重複する回数が多い値を最頻値といいます。

例えば、$ ( 1, 2, 2, 3, 3, 3, 4, 4, 4, 4) $というデータにおいては、4が最頻値となります。

メリット
・外れ値による影響を受けにくい
・意味を理解しやすい
デメリット
・データのすべての値で計算していないため、データ全体の特徴を表していない
・最頻値が2つ以上となる可能性がある
・データの数が少ない場合には不向き

標準偏差：データの分布のバラつきを数値化

データ $ (x_1, \cdots , x_n) $に対して、平均値$ \bar{x} $からの差を合計したものとなります。

ここで、
$$ \sigma^2 = \sum^{n}_{i=1} (x_i – \bar{x})^2 $$
で定義される$ \sigma^2 $を分散といいます。
分散の正の平方根
$$ \sigma = \sqrt{\sigma^2} = \sqrt{ \sum^{n}_{i=1} (x_i – \bar{x})^2 } $$
を標準偏差といいます。