決定木分析について
「決定木分析(ディシジョンツリー)」とは、ある目的に対して、関連の強い項目から順に分岐させ、ツリー状に表す分析手法です。
「決定木分析」を解説する前に、「分類木」と「回帰木」について理解しましょう。
「決定木分析」は、「分類木」と「回帰木」を組み合わせて樹木状(ツリー)のモデルを作成しデータを分析する手法となるので、まずは「分類木」と「回帰木」について解説します。
■「分類木」とは?
下図はフィットネスクラブの会員継続者と退会者の決定木分析例になります。
『自宅からの距離』に対し”30分未満か30分以上か”、30分未満なら『加入コース』は”AコースかBコースか”、といった条件ごとの結果を表しています。
つまり、『もし●●だったら?』という設問を最終的な結論や結果に至るまで繰り返すのが「分類木」です。
「決定木分析」のアウトプットイメージ
■「回帰木」とは?
単純に『スポーツジムを継続するか、退会するか』といった区分の結果を分析する場合は「分類木」を使いますが、『どんな条件なら継続するか?』といった連続して変化しうる値を分析する場合は「回帰木」を使います。
例えば、『自宅からの距離が30分未満』→YES→『加入コースはBコース』→YES→43人が継続する、といったように連続値を推定するルールをツリーの流れで表したのが「回帰木」です。
■「決定木」とは?
区分の分類を行いたい場合は「分類木」、数値を予想したい場合は「回帰木」ということを理解したところで、次は「決定木分析」について解説します。
繰り返しになりますが、「分類木」と「回帰木」を総称して「決定木」といいます。
「決定木分析」はデータの中にあるパターンや構造を抽出するための手法です。
データの分類、パターンの認識、予測に使われ、その結果を樹木の形で視覚的にあらわすことができ、「デシジョンツリー」とも呼ばれます。
複雑なデータの表現を、簡単な構造に変換し理解できる解析手法として、機械学習や統計、マーケティングや意思決定などさまざま分野で用いられています。主に顧客の分類、ターゲットの選別、購入者・非購入者の予測などに活用されています。
「決定木分析」のメリットや特徴
「決定木分析」の特徴やメリットをまとめると下記になります。
「決定木分析」の特徴
「決定木分析」を使ったWebサイトの分析事例
■分析対象カテゴリの選出方法
複数のカテゴリについてアンケートで「メーカー名/サービス名」の純粋想起を取得しました。その中で「ECサイト」、「グルメサイト」のカテゴリに着目し上位サイトの第一想起者(※)ごとに他サイトの接触状況を用いて分析を行いました。
※第一想起者:3つ設けた記入欄の中で、一番目の記入欄に書かれたサイト名
純粋想起とは?
認知度調査を行う際、選択肢や写真など何もヒントを与えずに、自由回答形式で回答してもらう方法
■「Amazon」と「楽天市場」のECサイトの事例
まずは、「ECサイ」カテゴリから見ていきましょう。下図はECサイトの純粋想起スコアになります。
「Amazon」、「楽天市場」の想起率が拮抗して高く、どちらも6割を超えていることがわかります。また、第一想起のスコアに注目すると「Amazon」が「楽天市場」を15ポイント近く上回っていました。
ECサイトの純粋想起スコア
アンケート調査時期:2017年4月14日~2017年5月1日
デバイス:PCおよびスマートフォン
第一想起に「Amazon」を記入した人と「楽天市場」を記入した人は、ネット行動においてどのような違いがあるのかを把握するために「決定木分析」を実施します。
※説明変数にヴァリューズが独自に分類しているサイトカテゴリのセッション数(訪問回数)を用いて「決定木分析」を実施
下図では、左側の分岐が「Amazon」想起者の比率が高いルートで、右側の分岐が「楽天市場」想起者の比率が高いルートとなります。
分析結果から、『クーポン』カテゴリのセッション数が1.5未満だと「Amazon」の想起者比率が58.2%→63.4%と高くなり、1.5以上だと「楽天市場」の想起者比率が41.8%→47.1%と高くなっていることが把握できました。
上記のことを踏まえると、『クーポン』カテゴリのセッション数が分岐の最大要因になっていることがわかりました。
「Amazon」と「楽天市場」を第一想起したユーザーのネット行動
集計期間:2017年4月
デバイス:PCおよびスマートフォン
■「ぐるなび」と「食べログ」のグルメサイトの事例
続いて、「グルメサイト」カテゴリを見てみましょう。下図はグルメサイトの純粋想起スコアになります。
「ぐるなび」、「食べログ」、「ホットペッパーグルメ」の3サイトに回答が集中していることがわかります。特に「ぐるなび」は47.9%とスコアが高いことがわかりました。
グルメサイトの純粋想起スコア
アンケート調査時期:2017年4月14日~2017年5月1日
デバイス:PCおよびスマートフォン
グルメサイトも同様に、第一想起に「ぐるなび」を記入した人と「食べログ」を記入した人の、ネット行動の違いを「決定木分析」を用いて実施します。
※説明変数にヴァリューズが独自に分類しているサイトカテゴリのセッション数(訪問回数)を用いて「決定木分析」を実施
下図で左側の分岐が「ぐるなび」想起者の比率が高いルートで、右側の分岐が「食べログ」想起者の比率が高いルートとなります。
分析結果から、『個人ホームページ』カテゴリのセッション数が1.5未満だと「ぐるなび」の想起者比率が68.2%→70.2%と高くなり、1.5以上だと「食べログ」の想起者比率が31.8%→36.8%と高くなっていることが把握できました。
上記のことを踏まえると、『個人ホームページ』カテゴリのセッション数が分岐の最大要因になっていることがわかりました。
さらに『クチコミ・掲示板の旅行・交通』カテゴリのセッション数が0.5以上だと「食べログ」想起者の比率が高まることも確認できました。
「ぐるなび」と「食べログ」を第一想起したユーザーのネット行動
集計期間:2017年4月
デバイス:PCおよびスマートフォン
まとめ
区分の分類を行いたい場合は「分類木」、数値を予想したい場合は「回帰木」を使い、「分類木」と「回帰木」を総称して「決定木」といいます。
「決定木分析」とは、ある目的に対して関連の強い項目から順に分岐させ、ツリー状に表す分析手法のことをいいます。また、ターゲットを選定する際の判断材料や優先順位づけにも役立ちます。
正しくデータを分析するために、「決定木」を理解することから始めてみてはいかがでしょうか。
本記事では純粋想起有無を目的変数に設定していますが、「コンバージョン有無」や「自社ユーザー/競合ユーザー」など課題に合わせた設定が可能です。説明変数もセッション数以外に、サイト内での滞在時間やページビューなどサイト回遊データを設定したり、性別や年齢のような基本属性データを用いることも可能です。
ヴァリューズではテーマや課題に合わせて分析内容を、企画・ご提案いたしますので、お気軽にお問い合わせください。
関連記事
クロス集計や回帰分析など、データ分析でよく使われる手法の基礎知識
https://manamina.valuesccg.com/articles/1012企業がデータを活用するにあたっては、現場でデータ分析できる人材が増えることが重要です。分析したいときに他部署や外部に依頼せず、自分でデータ分析できれば、より素早く結果を得られます。また、外部に依頼した場合でも、分析に用いられている手法を理解し、分析の目的と合っているか判断する必要があります。そのためには「クロス集計」「ロジスティック回帰分析」「アソシエーション分析」「決定木分析」「クラスター分析」など、主要なデータ分析手法の基礎知識を身につけておきましょう。
マーケティングのデータ分析に使われる手法と基礎固めにおすすめの本9冊
https://manamina.valuesccg.com/articles/1013膨大なデジタルデータが集まる現代では、経営やマーケティング施策の意思決定に「データ分析」を活用する企業が増えています。企業あるいは現場でデータを収集・分析・活用するために参考となる本をご紹介します。また、データ分析に使われる代表的な手法についてもまとめました。
メールマガジン登録
最新調査やマーケティングに役立つ
トレンド情報をお届けします
マナミナは" まなべるみんなのデータマーケティング・マガジン "。
市場の動向や消費者の気持ちをデータを調査して伝えます。
編集部は、メディア出身者やデータ分析プロジェクト経験者、マーケティングコンサルタント、広告代理店出身者まで、様々なバックグラウンドのメンバーが集まりました。イメージは「仲の良いパートナー会社の人」。難しいことも簡単に、「みんながまなべる」メディアをめざして、日々情報を発信しています。