Writer:Saito (22.06.15)

こんにちは!2022年度入社の新入社員、齋藤です!
私は現在、統計分析のお仕事をしています。統計分析ってなんか難しそうだなぁってイメージがありますよね。私自身、理数系の大学出身ですが、その上でも『心理学が絡むイメージ』などによる分野の壁を感じ、挑戦しづらいと思っていました。でも実際に挑戦してみると数字データに新たな発見ができるのでまるで研究者気分で楽しいです。
今回は統計分析の基本、「代表値」のお話をしていきたいと思います。
意外と知らない、平均値、中央値、最頻値などの代表値の使い方!
「代表値」とは、平均値、中央値、最頻値などの総称のことを言います。この中でも一番馴染みがあるのは「平均値」だと思います。他にもデータの特徴をわかりやすく見るための代表値、中央値、最頻値をご存知ですか?
それぞれの値の特徴を紹介していきたいと思います。
平均値(Average, Mean)
平均値とは「全ての値を足して、それを値の個数で割った値」です。よくExcelや分析ソフトではAverage, Meanと表記されることも多いです。
知っていましたか?知名度の高い平均値には、実は、悪いところがあります。
例えば「1, 2, 3, 4, 5」のデータがあると仮定します。そのデータの平均値は3です。しかし、「1, 2, 3, 4, 100」のデータがあった場合、"100"に影響されて平均値は22になるのです。この場合の"100"を外れ値と言ったりします。このように、外れ値の含まれたデータになると大きく違う結果が出てしまうのが平均値です。ですから、偏っていないデータを分析する場合には、平均値がおすすめです。
おすすめ
段階評価のアンケート、テストの点数、ある程度の数字範囲に収まるデータなど
あまりおすすめしない
ばらつきや個人差が出やすいデータ
この世の中には外れ値の存在しないデータの方が圧倒的に多いです。その分、平均値は経年変化を比較するのに向いており、さすが知名度が高いだけあってわかりやすいのが特徴です。
ここまででわかるように、最初に各数値の分布がどうなっているのかを確認して、どの値を使用するのかということを考えなくてはならないのです。ちなみに、ばらつきをもっと把握したい場合には、標準偏差が役に立ちます。標準偏差についてはまた以降の記事で!
中央値(Median)
中央値とは「数値を小さい方または大きい方から順に並べたときに、真ん中に位置する値」です。よくExcelや分析ソフトではMedianと呼ばれることが多いです。 「1, 2, 3, 4, 100」のデータでも"100"の影響は受けません。中央値は3となります。外れ値が多い、または値のばらつきがあるデータにおすすめ!
おすすめ
ばらつきや個人差が出やすいデータ
あまりおすすめしない
比較データ(前年度比較など)
前年度と比べて全体は減少傾向にあるのにもかかわらず、中央値が上昇する可能性があるため、比較には向いていません。
最頻値(Mode)
最頻値とは、「一番個数が多い値」です。Excelや分析ソフトではModeと呼ばれることもあります。
例えば「1, 3, 3, 3, 5」のデータがあるとします。最頻値は、3になります。中央値と同じく、データの偏りによる影響はそこまで受けません。
しかし、最頻値にも弱点があります。実は、最頻値が存在しない場合があるのです!
「1, 1, 1, 3, 3, 3, 5」といったデータがあれば、最頻値は"1"と"3"の2つあることになります。
おすすめ
データ数が多いデータやばらつきや個人差が出やすいデータ
あまりおすすめしない
データ数が少ないデータ
データ数が少ないと最頻値が複数存在する場合があり、値が細かいものには向いていません(小数点など)。値が細か過ぎる場合には、1-10、11-20…のように区切りをつけると最頻値を求めやすくなります。
今回は、平均値、中央値、最頻値についてまとめてみました。
ちなみに私の推しは、わかりやすいものが好きなので平均値です。初歩的なことですが、それぞれの場面に合わせて使いこなせるようになると、ただの数字も性格が見えてくるのではないでしょうか。
当社では、大学のデータ生徒情報やアンケート情報を使用して、可視化・分析をしています。
当社では、大学のデータ生徒情報やアンケート情報を使用して、可視化・分析をしています。
大学・企業のデータの活用方法がわからない、見やすいデータにしたいなど、現在の状況に合わせた活用方法をご提案させていただきます。
コラム執筆中
アイビーネットでは、大学IR・統計分析に関するコラムを随時執筆中です。