皆さんこんにちは! 個別指導WAM藤の木校です。
今回はこの平均値/中央値/最頻値についてお話します。
まず、平均値/中央値/最頻値はいずれも「データを一言で要約する値(=代表値)」です。そして、これらの使い分けの仕方は「データの分布は歪んでいるか?」だけです。
どういうことか?例をあげてみましょう。
ある10点満点のテストを9人の生徒が受けたとします。結果を点数の低い方から順に並べると、このようになっていました。
1 2 4 5 5 5 6 8 9
この平均値を求めてみましょう。平均値は「データの総和をその個数で割ったもの」でしたね。したがって、
(1+2+4+5+5+5+6+8+9)÷9 = 45÷9 = 5.0
となって、平均値は 5 となります。
いっぽう中央値は「全ての値を小さい方から順に並べ、ちょうど真ん中の値」でした。この場合左からも右からも5番目にあたる数になるので、ここでは中央値 5 となります。
最頻値も出しましょう。最頻値は「最も頻度の高かった数値」で、最も多い値は 5 なので、最頻値も 5 となります。
結果としてこのテストは、平均値 5 、中央値 5 、最頻値 5 、つまり全部同じになります。
ちなみに、このように(1)左右対称で(2)平均値と同じデータが最も多くて(3)逆に平均値から離れるデータほど少なくなるものを「正規分布」といいます。自然現象や社会現象にはこの「正規分布」に従うものがけっこう多く存在しています。
※高校生には耳なじみの方も多いのではないでしょうか。
次に、テストが難しくてほとんどが取れなかったけど、なぜか2人だけ高得点だった場合です。(理由は想像にお任せします)同じく点数順に並べると、
1 1 1 1 1 1 1 9 9
となりました。
平均値は (1+1+1+1+1+1+1+9+9)÷9 = 25÷9 = 2.7 となります。
でも中央値は 1 となり、最頻値も 1 となります。
テスト結果を要約するとして、平均値からだと「このテスト結果の平均値は 2.7 点です!」と表現することになりますが、これは適切でしょうか?
いっぽう中央値を用いて表現すれば「このテスト結果の中央値は 1 点です!」となります。こちらの方がより現実に即した結果を伝えられるのではないでしょうか。
つまりデータの分布に大きな歪みがある場合、平均値は〈代表値〉として不適切になりやすいのです。いっぽう中央値は、正規分布でなくても、外れ値があっても、概ね妥当な〈代表値〉になります。
〈代表値〉はその名の通り「元データをきちんと代表したもの」であるべきなので、その点で中央値は汎用性が高いとされます。むしろ平均値はごく一部の分布(正規分布など)を除いてあまり適しません。
とはいえ、中央値もデータ全体と全体とで比較するには不向き、最頻値はサンプル数が少ないとあまり効果を発揮しない、などの欠点もあります。
結局のところ、データの分布によって最適な〈代表値〉は違うのですが、とりあえず中央値を使っておけば誤解の少ない〈代表値〉と言えるでしょう。
どうでしょうか。これまで「データが複数あればとりあえず平均をとっておけばよい」と思っていた人は、中央値もよいかもと思いましたか。
この話の続きで、中学や高校で四分位数だの分散だのを習います。でもその前に、この平均値/中央値/最頻値を、「〈代表値〉にはいろいろある」以上のことを知っておけば、もう少し理解も深まるんじゃないかと思います。
<参考>
平均値と中央値の違い & 使い分け
平均値・中央値・最頻値はどう使い分ける?
https://integraldx.info/mean-median-mode-5207
正規分布とは?