Your focus determines your reality.

思ったことや新たに知ったことのメモとして。元々は留学中に考えていたことを記したブログでした。

クラスタ分析

今週の授業はほぼプレゼンのみであったので、先週のResearch for Marketing Decisionで学んだクラスタ分析について記載しておきたい。

クラスタ分析は、サーベイの数量データに基づいて、顧客の中に嗜好性の異なるグループ(クラスタ)がいくつあるのか、どのような嗜好性を持っているのかを明らかにする分析である。

今回は我々のグループが最終プレゼンで分析したデータを元にその使い方をまとめてみたい。今学期のプロジェクトの中では、ロサンゼルスのNBAチームLA Clippersが評判を獲得し、利益を上げるために何をできるかという戦略を検討するためのリサーチを行なってきた。

 

前段としての分析プロセス

まず、クラスタ分析に至るまでのプロセスとしては、以下のようなことを行なってきた。

 

・フォーカスグループインタビュー

NBAに興味がある潜在顧客4名に対してオープンなインタビューを行い、仮説立案のための材料を得るブレインストーミングを潜在顧客の頭を借りて行うようなイメージ。

質問は事前に設計しておき、フランクな雰囲気の中で質問に対して自由に答えてもらう。ここから得られた主なインサイトは以下の通り。

 

・同じLANBAチームLakersが圧倒的な存在感を持っており、その陰に隠れてしまっていることが現在の大きな課題ではないか

・地元のレストランなどとのアライアンスはあまり効果が無さそう

・観客はただバスケを観に行くだけではなく、友達と遊びに行ったり、デートをしたりするエンタテイメントとしてバスケ観戦に行っている

・現在Lakersと共有しているホームスタジアムから出て、新しいスタジアムを作ることはClippersの存在感を向上させる要因になり得そう

・バスケ観戦の大きなモチベーションは好きな選手を見ること。有名選手の獲得は観客獲得に大きく貢献しそう

・他のNBAチームのいない大きな都市に移転することも選択肢の一つ

 

・オンラインサーベイ

上記のインタビューから得られた知見を元に、検証したい仮説を明確化し、それを検証するために必要となる質問を組み立て、サーベイを作成する。

対象者は幅広く募るものの、サンプルにノイズが入らないように、NBAに興味がない人をスクリーンアウトする質問も混ぜておく。

サーベイを設計する際には、以下のエラーを頭に入れておく。

 

サンプリングエラー

サーベイでは知りたい対象の一部の人々に対して情報を聞き取るので、実際に得られた情報と全体の状況とには誤差が発生するということを念頭におく。サンプル数と全体の数との乖離によって、発生しうる誤差の大きさが異なる。

 

サンプルデザインエラー

サーベイの対象としたサンプルが全体を代表するようなものになっていないと、正しい情報を得ることができない。サンプリングという行為の特性上ある程度の偏りが出ることは仕方ないが、明らかに偏った対象を選定しないようにする。

 

ノンレスポンスエラー

全ての対象者がサーベイに回答してくれるわけではない。例えばメールで顧客満足度を測ろうとしても、満足していない顧客からの返答率は通常著しく低いため、正しい満足度の調査をすることは難しい。回答の内容に関わらず等しく回答を得られるように設計する

 

レスポンスバイアス

質問のワーディングや回答を求める状況によって回答が本当の状況と変わってしまうことがある。例えば対面でアンケートを取ると見栄が混ざってしまったり、曖昧な質問や選択肢によってどう回答していいか迷わせてしまったり、たくさん質問しすぎることによって回答が適当になってしまったりする。

 

・仮説検定

サーベイの数量結果に基づき、立てた仮説が正しいと言えるかどうかを定量的に判断する。

検定方法はサンプルのサイズと検証したい内容によって使い分ける。

例えば、回答者の年収と過去の試合観戦履歴に相関関係があるかを調べる場合などは、カイ二乗検定を用いる。

「相関関係はない」という仮説を立て、その場合に年収ごとの試合観戦数がどのようになるかの予測(「期待度数」)を求めておき、実際のデータとの乖離を求める。

その乖離が当初立てた仮説(「帰無仮説」)を否定しうるほどの大きさかどうかを見て、十分に大きいと言えれば「相関関係がある」ということになる。

このように、サーベイのデータに基づいて自分たちの考えが正しいかどうかを判断していく。

今回はいくつか立てた戦略の中から、以下は顧客誘引に有効だと言えそうだというところまで絞り込めた。

新しいスタジアム

地元のレストランとの契約・スタジアムへの誘致

オールスター選手の獲得

 

そしてここから先がクラスタ分析となる。

 

クラスタ分析

クラスタ分析の最終的なゴールは、「人々を嗜好性によって分けると、いくつのグループに分けることができ、各グループはどのような嗜好性を持っているのか」を知ることだ。

以下の2ステップで分析していく。

 

1. スクリープロット

いくつのファクターを用いると、全体をよく説明できるのかを明らかにする。例えばサーベイ13問あったとすると、13個の説明ファクターがあることになる。しかしその結果を全て使ってクラスタ分けしても、細分化しすぎてよく分からなくなってしまう割に、分析の精度はあまり高まって行かない。

そこで、各質問への回答(ファクター)どうしの相関関係を計算し、相関関係の強い質問どうしをまとめて一つのファクターにしていくことを考えていく。そうした場合に、いくつのファクターにまとめるとサンプル全体をどれくらい説明できるのかをプロットしたものがスクリープロットであり、これを見ながらいくつのクラスタに分けるのが良いかを考える。

 

今回のプロジェクトのサーベイデータをプロットしたものが以下のグラフになる。

f:id:zonotomo:20181208163048p:plain

これを見ると、4つのクラスタに分けることで7割ほどが説明でき、そこからはファクターを増やしても説明できる割合があまり高まって行かないことがわかる。

そのため、今回は4つのクラスタに分けて分析することとした。

 

2. k平均法

与えられたクラスタ数に応じて、サンプルを実際にクラスタ分けし、それぞれのクラスタがどのような特性を持っているのかを掴む

k平均法は以下の手順で計算している。

(1) まず、与えられたクラスタ数にサンプルを適当に分類する。

(2) 変数として用いている数量データ(サーベイの各質問に対する回答など)を使い、各クラスタの重心を計算する。

(3) 各サンプルを最も近い重心のクラスタにグループ分けし直す。

(4) (2)(3)を繰り返し、計算を繰り返してもサンプルの所属するクラスタに変化がなくなるまでクラスタ分けし直す。

 

実際には統計ツールを使えば手計算をすることなくクラスタ分けをすることが可能である。今回のプロジェクトの中では、以下の4つの質問への回答を変数として、サンプルのクラスタ分けを行った。

Q6_地場のカジュアルレストランがスタジアムに入ったら、試合にどれくらい行きたいと思うか

Q14_今現在、試合にどれくらい行きたいと思うか

Q15_新しいスタジアムが建設されたら、試合にどれくらい行きたいと思うか

Q23_オールスター選手を獲得したら、試合にどれくらい行きたいと思うか

 

クラスタ分けの結果は以下の通り。

f:id:zonotomo:20181208163212j:plain

真ん中にあるのが、各質問に対するクラスタ内サンプルの回答平均を表している。(1が「とても行きたい」5が「全く行きたくない」)

これを見ると、以下の嗜好性でクラスタ分けされていることがわかる。

 

クラスタ1:

元々はあまり試合に行く気は無い(Q14の回答が4.33)が、レストラン、スタジアム、スター選手のいずれかが叶えば行きたい度合いが1.441.78くらいまで上がる層

クラスタ2:

元々は全く試合に行く気が無いが、レストランかスター選手が叶うなら行きたい度合いが上がる層。ただし、スタジアムには全く興味がない。

クラスタ3:

元々試合に割と行きたいと思っており、レストラン、スタジアム、スター選手のいずれにも影響されない層。Clippersファンと想定。

クラスタ4:

元々あまり試合に行く気が無く、レストラン、スタジアム、スター選手のいずれが改善されても試合に行くことはない層。Clippersに興味がないか、他チームのファンと想定。

 

考えたこと

このように、データをただ眺めているだけでは見えてこない、または勘に頼って分類するしかないクラスタ分けが、この手法だと簡単にできる上、定量的な分析のため説明がつきやすく説得力がある。

クラスタ分けを正確にすることで、しなくて良いマーケティングキャンペーンをしなくて済むし、それぞれのクラスタに響く戦略を適切に当てていくことがしやすくなる。既存製品で新しい市場に乗り出す際や、既存市場に対する新製品の響き方を知りたい際、全くの新事業を起こす際には、既存の市場の常識に基づいて仮説を立てることも重要だが、サーベイに基づいた定量的なアプローチができることも必要だろう。