代表値とは、データの中心を表す指標です。
データを様々な数式で計算し、1つの値で要約したものとなります。
その中でも、頻出のものを解説していきます。
平均値:データの合計をデータの個数で割った値
代表値の中でも最も使用されるものは、平均値です。
平均値を求めることで、データの値の大きさを把握することが出来ます。
データ分析の際には、必ずと言っていいほど使用されます。
平均値の厳密な定義は以下となります。
\( n \)個のデータ\( (x_1, \cdots , x_n) \)に対して、
$$ \bar{x} = \frac{1}{n} \sum^{n}_{i=1}x_i $$
を平均値といいます。
メリット
・データの値の大きさを把握できる
・すべての量的データで算出できる
・意味を理解しやすいデメリット
・外れ値(極端に大きい、小さい値)がある場合、平均値が頻出する数値と離れてしまう
中央値:データの値を大きさで並べたときの真ん中の順位の値
平均値には、外れ値による影響を受けるというデメリットがあります。
そこで、外れ値による影響を受けにくい代表値の1つが中央値です。
厳密な定義は以下になります。
データ \( (x_1, \cdots , x_n) \)に対して、大きさの順に小さいものから並び替えたものを
$$ x_{(1)} \leq x_{(2)} \leq \cdots \leq x_{(n)} $$
と表し、\( x_{(i)} \)を\( i \)番目の順序統計量といいます。
また、\( x_{(1)} \)は最小値、\( x_{(n)} \)を最大値となります。
このとき、データの中でちょうど真ん中の順位の値を中央値といいます。
ここで、データ数が奇数の時は、ちょうど真ん中の値を出すことが出来ます。
しかし、データ数が偶数の時は、真ん中2つの値の平均を中央値とします。
従って、中央値は
$$ \mathrm{med} \{ x_1, \cdots, x_n \}= \begin{cases} x_{(\frac{n+1}{2})} & ( nが奇数の時 ) \\ \frac{1}{2} \{ x_{(\frac{n}{2})} + x_{(\frac{n}{2}+1)} \} & ( nが偶数の時 ) \end{cases} $$
と定義されます。
メリット
・外れ値による影響を受けにくい
・すべての量的データで算出できる
・意味を理解しやすいデメリット
・データのすべての値で計算していないため、データ全体の特徴を表していない
最頻値:最も現れる回数が多い値
データ\( (x_1, \cdots x_n) \)において、重複する値が存在する場合、最も重複する回数が多い値を最頻値といいます。
例えば、\( ( 1, 2, 2, 3, 3, 3, 4, 4, 4, 4) \)というデータにおいては、4が最頻値となります。
メリット
・外れ値による影響を受けにくい
・意味を理解しやすいデメリット
・データのすべての値で計算していないため、データ全体の特徴を表していない
・最頻値が2つ以上となる可能性がある
・データの数が少ない場合には不向き
標準偏差:データの分布のバラつきを数値化
データ \( (x_1, \cdots , x_n) \)に対して、平均値\( \bar{x} \)からの差を合計したものとなります。
ここで、
$$ \sigma^2 = \sum^{n}_{i=1} (x_i – \bar{x})^2 $$
で定義される\( \sigma^2 \)を分散といいます。
分散の正の平方根
$$ \sigma = \sqrt{\sigma^2} = \sqrt{ \sum^{n}_{i=1} (x_i – \bar{x})^2 } $$
を標準偏差といいます。
メリット
・データのバラつきが理解できる
・標準偏差を用いて、あるデータがどれほど平均から離れているか把握できる。(偏差値)
デメリット
・直感的に理解することが難しい