新入社員が教えるExcelでもできる分析手法、回帰分析ってなに！？【単回帰分析編】

Writer:Saito (22.09.16)

こんにちは！2022年度入社の新入社員、齋藤です！
私は現在、統計分析のお仕事をしています。前回は、「相関分析」についてお話ししていきました。

前回の記事はこちら

新入社員が教えるExcelでもできる分析手法、相関分析ってなに！？

今回は、「回帰分析」について紹介していきます。

回帰分析と相関分析、両方とも2つのデータの関係性を見ているという点ではとても似ていますが…どういった違いがあるのか、どのような場面で使えるのかなど、Excelのデータ分析ツールを使用して解説していきます。

目次【非表示】

まず、回帰分析って何？
Excelでできる単回帰分析と重回帰分析！！
相関分析と回帰分析の違いとは？
実際に単回帰分析してみよう！！
データの見方

まず、回帰分析って何？

回帰分析は、説明変数が目的変数にどれだけの影響を与えているのかを調べることができる分析のことです。説明変数は、“ある現象”などを説明する(原因を指す)変数です。目的変数は、説明される方の“ある現象”のことを指します。

具体例でもって説明します。「成績が上昇する要因」について回帰分析するとしましょう。「成績」という目的変数に対して「1日の勉強時間」という説明変数が与える影響を調べることができます。式で表すと、

「成績」 = 定数 × 「1日の勉強時間」 + 切片

こんなイメージです。回帰分析をすることでこの“定数”がわかります。この定数のことを「回帰係数」と言います。

Excelでできる単回帰分析と重回帰分析！！

回帰分析の中にはいくつか種類があります。ここではExcelでできる「単回帰分析」と「重回帰分析」について解説します。

単回帰分析

以下の式で表すことができます。

Y = aX + b

Y = 目的変数
X = 説明変数
a = 定数
b = 切片

このように説明変数が1つのものが単回帰分析とされます。先の具体例もこれに該当します。

重回帰分析

以下の式で表すことができます。

Y = a1X1 + a2X2 + a3X3 +… b

Y = 目的変数
X1、X2、X3 = 説明変数
a1、a2、a3 = 定数
b = 切片

このように、説明変数が複数あるものを重回帰分析といいます。単回帰分析に比べて、複数の説明変数の使用する時にはいくつかルールがあるため注意が必要です。

相関分析と回帰分析の違いとは？

回帰分析と相関分析、どちらも複数のデータの関係性を見る分析手法です。しかし分析の結果として得られる内容は異なります。

相関分析でわかること

相関分析では相関関係の強さがわかります。例えば数学のテストの点数と理科のテストの点数で相関関係を見た場合、データにもよりますが、「数学の点数が高い時、理科の点数が高い生徒が多い傾向にある」なんてことがわかります。しかし、どちらが影響を与えているのか、どちらも互いに影響し合っているのかは相関分析では分かりません。

回帰分析でわかること

回帰分析では、因果関係の強さがわかります。国語のテストの点数と文章読解力の因果関係を見た場合、「国語の点数に文章読解力がどのぐらい影響を与えているか」という内容がわかります。

実際に単回帰分析してみよう！！

Excelで回帰分析する前に！！

Excelで回帰分析するには、「データ分析」という機能を使います。こちらは以前の記事に表示方法を紹介しているので、デフォルトでは表示されていないので表示されていない場合は、以前の記事をご覧ください。

データを用意します。持っているデータでもいいですし、今回はExcelデータを用意しましたのでダウンロードして使ってみてください。

データのダウンロード

Excelで単回帰分析を実行してみましょう！
今回のデータは、「国語のテスト成績」と「漢字試験の点数」のデータです。回帰分析の中でも単回帰分析を今回はやってみましょう。

データ分析ツールの「回帰分析」を選択します。

するとこのような画面が表示されます。ここでセルを選択します。「入力Y範囲」が目的変数、「入力X範囲」が説明変数です。

数字データ全てを含むように選択します。

このとき、数字と一緒に『国語、漢字試験の点数』の項目名も選択した上で、ウィンドウ中から『先頭行をラベルとして使用』にチェックを入れておくと、結果がより見やすくなります。

データの見方

データの小数点は見づらいので、小数点第2位で四捨五入してあります。全範囲を選択し、右クリック「セルの書式設定」→「数値」→「小数点以下の桁数」を2に設定するとこのようになりますよ。

出力された数値の見方について解説します。今回は必要最低限のものをピックアップしました。他の値については次回以降に深堀していきます

重決定R2: 「決定係数」と言われる値で「R2(あーるじじょう)」と読みます。重決定R2は回帰モデルの当てはまりの良さを示した値です(相関関係(R)の2乗の値でもあります)。1に近づくほど当てはまりがいいことを示しています。今回は0.74ということで当てはまりがいいことが分かります。値が低い場合は、このデータが回帰分析に向いていない可能性があります。
係数(回帰係数): 回帰式の定数の値です。先の計算式(Y=aX+b)では「a」と定義していた箇所です。また、「b」と定義していた切片は、説明変数「漢字試験の点数」で説明しきれなかったものになります。
P-値: この値は、「想定している結果より極端な結果が出る確率」を示しています。値が大きいほど当てが外れている、とも言えます。P-値は基本的に5％を超えていなければ問題ありません。また、このことをわかりやすくするために、この値だけ表記を％にしています。
今回のデータのP-値は0.0001％ですから、極端な事態が起きる可能性は低そうですね。一方でこの値が大きい場合は、説明変数が正しくない可能性が高いです。

このデータの回帰式は

「国語のテスト」=0.82×「漢字試験の点数」+17.09

だと分かります。回帰分析は、説明変数が正しくない場合があるので、何度もやり直すことが多いです。文字データのP-値が大きい場合は、根気強く別の変数を試してみましょう。

今回は「回帰分析」についてまとめてみました。Excelの回帰分析機能は、実際に複雑な計算式を組み立てなくても「操作方法」と「値の意味」を理解できれば分析ができるとても使いやすい機能です。

次回以降は、今回触れなかった「重回帰分析」の注意点や使い方について紹介していこうと思いますので楽しみにしていただけると嬉しいです。