新入社員が教えるExcelでもできる分析手法、回帰分析ってなに!?【重回帰分析編part2】

Writer:Saito (22.11.04)

こんにちは!2022年度入社の新入社員、齋藤です!
私は現在、統計分析のお仕事をしています。前回は、「重回帰分析」の実行までの手順や注意点についてお話ししていきました。

今回は「重回帰分析」のデータの見方について重点的に紹介していきます。
前回の記事の内容とあわせての解説となるため、そちらがまだという方はぜひ以下のリンクをご確認下さい!

前回の記事はこちら

データの見方

データの小数点は見づらいので、小数点第3位で四捨五入してあります。全範囲を選択し、右クリック「セルの書式設定」→「数値」→「小数点以下の桁数」を2に設定するとこのようになります。

またいくつかの値がパーセント表示になっていますが、それについては後ほど説明します。それでは、数値の見方について解説していこうと思います。

回帰統計で推定された回帰式の精度を確かめる!!

単回帰分析の時と注視する部分が少し異なるので注意してください。

重相関R
目的変数の理論値と実測値との間の相関係数のことです。0から1の間の値を取り、1に近いほど分析の精度は高いと言えます。
重決定R2
「決定係数」と言われる値で「R2(あーるじじょう)」と読みます。それは相関係数(R)の2乗だからという意味もあります。重決定R2は回帰モデルの当てはまりの良さを示した値で、回帰式の信頼度を表しています。1に近づくほど当てはまりがいいことを示しています。
補正R2
自由度を調整した決定係数のことです。重決定R2に自由度を使って補正した値になります。重決定R2は説明変数の量が増えたときでも、大きな値になるという性質があります。
今回は重回帰分析なので、重決定R2ではなく補正R2を参考にしましょう。結果は0.83なので、精度の高い回帰式を得ることができましたね。

分散分析表で推定された回帰式・係数に統計学的な意味があるのかを確かめる!!

有意F
分かりやすくするために、%表記にしました。求めた回帰式は統計学的に意味があるのかを確認できる値です。回帰式の説明力が高いのは偶然ではない!と判断することができます。5%以下であれば、ほとんど問題ありません。
今回のデータは、0.00005%ですので問題ないと分かります。
係数(回帰係数)

回帰式のY = a X + b (a:定数、b:切片)の定数の値です。切片はその説明変数全てで説明しきれなかったものになります。よって、このデータの回帰式は
「国語のテストの点数」= 1.57× 「漢字小テストの点数」 + 0.25 × 「一日の勉強時間(分)」 + 0.28 × 「一日の読書時間(分)」
だと分かります。

P-値
分かりやすくするために、%表記にしました。この値は、「想定している結果より極端な結果が出る確率」を示しています。値が大きいほど当てが外れている、とも言えます。5%以下であれば問題ありません。
今回のデータは、説明変数「一日の読書時間(分)」のP-値が8%ですので、この係数は、適していない可能性があるとわかります。

結論

「国語のテストの点数」= 1.57 × 「漢字小テストの点数」 + 0.25 × 「一日の勉強時間(分)」 + 切片
という回帰式で説明ができて、この式は

  • 精度が高い
  • 統計学的に優位性が認められている
  • 仮説通り

だと証明された。

回帰分析は、P-値、R2や有意Fなどといった複数の値を照らし合わせなければ不明瞭なことが多くなります。今回のように、説明変数が正しくない場合があるので、何度もやり直すことが前提である分析方法でもあります。P-値や有意Fが大きい場合は、根気強く別の変数を試してみましょう。

Topic! Excelで結果が出てこない標準偏回帰係数とは?

特定のソフトやプログラムでは必ず出てくるのに、Excelでは出てこない不便な値があります。それが標準偏回帰係数です。標準偏回帰係数は、その説明変数の説明力を数値化したものです。標準偏回帰係数は説明変数の絶対値が大きくなると、比例して増大します。相関係数と同じで、ほぼ-1から1の間で値をとりますが、稀にその範囲を超えることがあります。その場合は、それぞれ-1と1で捉えて大丈夫です。

回帰係数の説明で言った通り、回帰係数が高いからと言って説明変数の影響力が高いとは限らないのです。標準偏回帰係数はこれを補正する値であり、説明変数の影響度を比較することができます。

計算式は以下の通りです。

標準偏回帰係数 = 説明変数の回帰係数 × 説明変数の標準偏差 / 目的変数の標準偏差

また、ここで使用する標準偏差は、STDEV関数を使用すると簡単に求めることができます。

標準偏回帰係数を見ると、「漢字小テストの点数」が最も影響を与えているとわかりました。

前回と今回合わせて「重回帰分析」のについてまとめてみました。重回帰分析は、説明変数が目的変数に与える影響力を調べる分析です。主に物事の要因を調査するときや、予測分析したいときに使用されることが多いです。

基本統計量や相関分析に比べて難易度が上がってきています。できたという方はぜひ自信を持っていただければと思います!

当社では、大学の学生情報や成績情報、アンケート情報を使用して、可視化や統計分析をしています。

当社では、大学の学生情報や成績情報、アンケート情報を使用して、可視化や統計分析をしています。
大学・企業のデータの活用方法がわからない、見やすいデータにしたい、効果的なデータ分析をして運営に活かしたいなど、現在の状況に合わせたご提案をさせていただきますので、是非ご相談ください。

コラム執筆中

アイビーネットでは、大学IR・統計分析に関するコラムを随時執筆中です。

コラム カテゴリ