新入社員が教える統計の基本、標準偏差、分散って結局なに!?

Writer:Saito (22.07.07)

こんにちは!2022年度入社の新入社員、齋藤です!
私は、現在統計分析のお仕事をしています。前回のコラムでは、統計の「代表値」についてお話ししました。

前回の記事はこちら

平均値には、散らばりがわからないというデメリットがあるんです。そんなデメリットをカバーするために、セットで使用されることが多い「標準偏差」ですが…

正確な定義は?具体的な計算式は?「偏差値」とは違うの?

本日は意外と知らない、標準偏差に似ている「分散」と「標準偏差」のお話をしていきたいと思います。

まず分散(Variance)ってなに?

分散は、「データの平均値からの散らばり具合を表す指標」です。平均値から離れた値のデータが多いほど、分散は大きくなります。Excelで使用する場合、VAR.P関数を使用することが多いです。

分散が大きい場合
データのばらつきが多い

分散が小さい場合
データのばらつきが小さい

と覚えましょう!!

標準偏差(Standard deviation)ってなに?

標準偏差とは、「データの平均値からの散らばり具合を表す指標」です。Excelなどで使用する場合、STDEV.P関数を使用することが多いです。前回の記事で、平均値ではデータのばらつきの表現が出来ないという話をしました。それが表現できるようになるものです。一般的に、平均値とセットで標準偏差を表記します。

え?分散と同じじゃないか?と思いますよね。

しかし分散とは、単位が異なります!

例えば、平均点が50点のテストがあるとしましょう。分散は100で、標準偏差が10でした。すると、50点±10点の範囲(40〜60点)にほとんどの人がいるということを表しています。標準偏差が20であれば50点±20点の範囲(30〜70点)にほとんどの人がいるということを表しています。

分散は、標準偏差の2乗であるために平均点から範囲を計算できません。そのため、標準偏差のような「一見してわかるような表現」が困難です。標準偏差とは、分散と比較した時に、より一般に向けた表現ができる便利な指標ともいえます。

偏差値と標準偏差の違いって何?

学力の指標として使用される「偏差値」は、平均点が何点のテストであっても平均点=偏差値50に補正してあります。自分が全体的から比較してどのぐらいにいるのか、相対的に見て理解できる便利な指標です。そのため、自分の点が平均点と同じであれば、偏差値は必ず50になるんです。

「標準偏差」は散らばり、「偏差値」は1人1人のその集団の中での位置を表します。

結局分散って必要?分散が標準偏差の2乗になっている意味とは?

標準偏差の求め方はこんな感じです。今回は、先程の例でも使ったテストのデータで求めていこうと思います。

1.平均を求める

データの平均を求めます。
この時のデータ平均は、(46+52+55+60+55+60+34+43+50+45)/10 = 50です。

2.偏差を求める

偏差とは、個々の数値と平均値との差のことです。平均値との差を個々で求めます。
例えばAさんの偏差は、46-50 = -4です。

3.分散を求める

偏差をそれぞれ2乗してその合計を求めます。
16+4+25+100+25+100+256+49+0+25=600
分散は600です。

4.標準偏差を求める

分散の平方根を求める
√600 = 24.49
このデータの標準偏差は、24.49です。

Topics なぜ偏差を2乗するの?
散らばりを求めるには、偏差の平均をすればいいと考えることが多いのではないでしょうか。偏差の平均を求めてみると、0になってしまいます。偏差の平均値では散らばりの度合いを表すことはできません。そのため、偏差をそのまま用いずに、偏差の二乗を分散として用いるのです。
Topics 標準偏差についてもっと詳しく!!

例えば、平均点が50点のテストがあるとして、その標準偏差が10でした。一般的にはデータの確率分布が正規分布とよばれる形をしていたら、

50点±10点の範囲(40〜60点)にあるデータが含まれる確率が、68%
50点±20点の範囲(30〜70点)にあるデータが含まれる確率が、95%

と言われています。

正規分布とは、

「テストの点数の分布図などを作ったときに、平均周辺の値の人数が一番多く平均から離れるにつれてどんどん人数が減っていく傾向にある分布」

のことを言います。ヒストグラムなどで表現した場合に以下のような綺麗な山形になっている状態です。

今回は主に「標準偏差」についてまとめてみました。標準偏差は統計分析の中でも基本的な内容でかつ、多くの情報を手軽に確認することができます。データを読み解くときにはまず、平均値と標準偏差を算出することから着手してみましょう。

当社では、大学の学生情報や成績情報、アンケート情報を使用して、可視化や統計分析をしています。

当社では、大学の学生情報や成績情報、アンケート情報を使用して、可視化や統計分析をしています。
大学・企業のデータの活用方法がわからない、見やすいデータにしたい、効果的なデータ分析をして運営に活かしたいなど、現在の状況に合わせたご提案をさせていただきますので、是非ご相談ください。

コラム執筆中

アイビーネットでは、大学IR・統計分析に関するコラムを随時執筆中です。