ビッグデータから「相関関係」を見出すには?
POSデータや広告の効果測定など、大量かつ複雑なデータから意味や傾向を見出すには、「暑くなればビールが売れる」と言った原因と結果、またその時の傾きはどのくらいか、などの分析が必要です。売上を増やす要因がわかれば、暑い天気予報の日には広告予算を増やしたり、売上から逆算される予算規模はどのくらいかなどの予測に活用できます。
数学的には、Aが増えればBも増える関係を「正の相関関係」、Aが増えるとBが減る関係を「負の相関関係」と言います。
なお「相関関係」と「因果関係」は似ていますが、Aが変わるとBも変わる関係を相関関係、Bが変わる要因がAという関係が因果関係です。例えば、スターバックスが多いエリアは人口が多いという相関関係において、スタバを増やせば人口が増えるわけではなく、人口が増えるとスターバックスも増える、という因果関係が考えられます。
回帰分析とは?回帰分析の基本
ビジネスにおいて、販促すると売上が上がることがわかっていたとして、知りたいのはその傾きがどのくらいか、あるいは効果が最大になる予算はいくらかなどの予測でしょう。
ある結果を説明する際、関連する要因がどのくらい結果を左右するのかを関数で数式化し、その結果をもとに将来の予測を立てる統計手法が「回帰分析」です。回帰分析では「ある結果」を「目的変数」、「関連する要因」を「説明変数」と置き換えます。
回帰分析には大別して3つの分析方法があります。まずは説明変数が1つで、1つの要因から結果を予測する「単回帰分析」。2つ以上の要因から結果を予測する「重回帰分析」。そして正規分析を想定している単回帰分析や重回帰分析ではそれに当てはまらないケースもあり、こうした場合に用いる「ロジスティック回帰分析」があります。
以下、それぞれの詳細を解説します。
単回帰分析
説明変数が1つである単回帰分析の説明例として、広告配信からの売上数の予測を挙げます。広告配信の回数と売上数のデータを多く収集し、目的変数である売上数の予測を数式化しましょう。
単回帰分析は「Y=aX+b」という一次関数で表せます。Xが説明変数、Yは目的変数です。単回帰分析はエクセルを利用すると素早く算出できます。
広告配信と売上数の関係を例に見ていきましょう。
まず、広告の配信回数(1日、1週間など期間を決める)と売上数(広告の配信回数の基準期間と同じくする)のデータを収集します。
続いて、売上数をY軸、広告配信回数をX軸として散布図を作成します。散布図上の1点から「近似曲線の追加」を選択します。このときに「グラフに数式を表示する」と「グラフにR-2乗値を表示する」にチェックを入れます。これによりY=aX+bのaとbの部分に数値が入った数式が表示されます。
この結果から1回の広告配信でa個の売上数向上が見込めることがわかります。単純に向上する売上個数がわかるだけではなく、a個の売上利益と1回の広告配信の費用のバランスを見て、広告配信費用のほうが高い場合はこれ以上の広告配信は行わないという判断、そして、販売個数の目標を立てた場合、広告配信の回数をどれぐらい増やせば効果を得られるのかという予測もできます。
重回帰分析
単回帰分析では、広告配信回数と売上数の分析だけでしたが、売上数を左右する要素は広告配信回数だけではなく、ほかの要素も絡んできます。そうした要素、つまり2つ以上ある説明変数が売上数(=目的変数)に与える影響度を分析するのが「重回帰分析」です。
重回帰分析は「y=b1X1+b2X2+b3X3+……b0」という式で表せ、複数のX、つまり説明変数が使われています。今回は月ごとの売上数を広告配信回数、問い合わせ数、アクセス数から予測する式を求め、それぞれの説明変数が売上数にどれぐらいの影響を与えるのかを例として挙げます。
月ごとの売上数、広告配信回数、問い合わせ数、アクセス数(単位は1000回を1とします)のデータを並べてエクセルの分析ツールにある「回帰分析」を利用します。出力された結果の「分散分析表」の「係数」の部分が、売上数を予測する回帰式にあてはまるようになります。
たとえば、b1が10だった場合、広告配信回数を1回増やすと売上数が10個増える。b2が3だった場合、問い合わせが1件増えると売上数が3個増える。b3が12だった場合、アクセス数が1000回増えると12個増える、というようになります。
このように、各説明変数が説明変数にどれほどの影響を与えているのかを読み取れます。この例では、売上数にもっとも影響を及ぼすのはアクセス数であると判断できるので、売上数を伸ばすためにアクセス数を増やす方法を検討する、という流れになります。
このほかにも重回帰分析で求めらられた回帰式の各説明変数の部分(X1=広告配信回数、X2=問い合わせ数、X3=アクセス数)に具体的な数値を入れると、売上数のおおまかな予測を算出できます。
ロジスティック回帰分析
ロジスティック回帰分析とは、目的変数がAであるか or Bであるかという二者択一の場合、もしくは割合(率)の場合、かつ、説明変数が2つある場合に用いられるもので、多変量解析の一種です。
よく挙げられる例として、リスク因子による病気の発生確率の分析があります。例えば、1日あたりのアルコールの摂取量と喫煙本数のデータからがんの発生率を分析、というものがあります。
それぞれのデータをもとに、アルコールの摂取量や喫煙本数がこれぐらいであれば、がんに罹患する確率はこれほど、という予測を立てられます。
このような分析以外にも、DMを送付した顧客ひとあたりの購入率を算出し、購入率の高い顧客を中心にDMを送付するという施策を立てられたり、キャンペーン用のWebページを作成し、そこを閲覧後に購入したユーザーと閲覧せずに購入したユーザーの割合をチェックしてキャンペーン用Webページの効果を分析する、といったことも可能になります。
なお、ロジスティック回帰分析の計算はエクセルのほか、統計分析フリーソフト「R」でも行えます。
まとめ
売上向上のために必要な施策を検討する上で欠かせない回帰分析。
ある施策が売上増につながることがわかった場合、より効率的な施策の実行回数を割り出すほか、未知の売上であっても既存の説明変数を用いて重回帰分析を用いて売上全体、そしてどの説明変数が影響を及ぼすかを計れます。
単回帰・重回帰分析では目的変数は1つですが、ロジスティック回帰分析を用いれば2つの目的変数、もしくは割合求められます。
このように状況に応じた「回帰分析」によって、これから行うべき施策を明確にできることでしょう。
メールマガジン登録
最新調査やマーケティングに役立つ
トレンド情報をお届けします
マナミナは" まなべるみんなのデータマーケティング・マガジン "。
市場の動向や消費者の気持ちをデータを調査して伝えます。
編集部は、メディア出身者やデータ分析プロジェクト経験者、マーケティングコンサルタント、広告代理店出身者まで、様々なバックグラウンドのメンバーが集まりました。イメージは「仲の良いパートナー会社の人」。難しいことも簡単に、「みんながまなべる」メディアをめざして、日々情報を発信しています。