小市民ブログ

KelloggってMBAを出てアメリカで移民サバイバル生活をしています。サウナが好きです

アンケートを使ってサウナーを分類する【手法編】

こちらの記事では、サウナーを分類するときにどんなステップで行っていったかを紹介していければと思います(元記事はこちら)。

元ネタになっているのは私が通うKelloggのMarketing Research and Analytics という授業で、こちらで習った手法を練習する、というのが本アンケート企画の裏目的です。サウナーの方はKelloggなんて聞いたことない方が多いと思いますが、マーケティングを始めとして、結構世界的に有名なビジネススクールなんですよ(宣伝)

今回使ったコードは、以下に保存しております。アンケートデータの成形はPython、分析はR、というかRをベースにしたコードを使わずに分析できる、Radiantというツールを使いました。

元記事のおさらいですが、今回は以下のプロセスで進めていきました。

  1. サウナを利用する目的に関わる15個の質問を、5つの因子に絞り込み(因子分析と呼ばれる手法)
  2. 5つの因子(Factor)で各回答者を評価して、近い傾向にある回答者同士をグルーピングしていって、6セグメントに分類
  3. 最後に、各セグメントのサウナについての支出・性別・年代等の傾向を分析して、どんな人達がそのグループに多く含まれているかを確認

一つ一つ、詳しく見ていきます。

質問を共通要素に絞り込む

まず、事前に質問同士にある程度相関があるかどうかをチェックします。Bartlett test、KMO testと呼ばれる値を確認します(あまりにも無味乾燥なのでここでは省略)。その後、何個の因子にするのが良いかを考えるため、データを確認。因子を増やすほど15個の質問を沢山説明できる様になる一方、その後解釈するのが難しくなるというトレードオフがあります。Eigenvaluesという値が1以上であることが望ましい一方で、7割程度(以下テーブルの「Cumurative %」)は説明したいことも踏まえて、今回は因子を5つとすることを決定。

f:id:shoshimin:20211028235222p:plain

f:id:shoshimin:20211028235258p:plain

そうして、15の質問から5個の因子を作ったら、各因子がどんな意味合いを持つかを考えるのは人間の仕事です。以下のように、各質問の値と、因子の相関を見ると、各因子がどの質問と関係が強いかが分かります(数値が1だと完全に正に相関、-1は完全に逆相関、0は無相関)。それを基に、各因子に名前をつけていきました。

f:id:shoshimin:20211028235650p:plain

f:id:shoshimin:20211028235707p:plain

  • Beauty(デトックス代謝改善・ダイエット・美肌と強い相関)
  • Work Performance(脳のリフレッシュや精神面の安定、整いの快感と強い相関)
  • Fun Experience(サ旅やサ飯、休憩スペースの利用、整いの快感と強い相関)
  • Health(肩凝りや腰痛、睡眠の質改善と強い相関)
  • Friendship and Coworking space(コワーキングスペースの利用やサウナを通じた友人との交流と強い相関)

5つの因子を使って、回答者を6グループに分類

因子が出来たので、これを使って回答者をグループ分けしてきます。まず、何個のグループに分けるのが妥当か?という点を検討します。こちらはDendrogramと呼ばれるグラフで、グループ分けした時に、各グループがどれぐらい異なっているか?を示してくれます(遠いほど、違いが大きい)。上の方でDendrogramをぶった切ると2セグメントになりますが、それでは各セグメントに、全く異なるデータ群が含まれてしまいます。今回は、赤線のところで切って、6セグメントに分けています。

 

f:id:shoshimin:20211029000209p:plain


そうして因子を使って回答者を6セグメントに分けていきます。

f:id:shoshimin:20211029000728p:plain

各セグメント毎の因子の平均値を見て、どの数値が高い/低いかを基に、名前をつけていきました。因子に名前をつけるのと同様、Rが分けてくれた各セグメントの意味合いを解釈して、名前をつけるのは人間の仕事です。

各セグメントのサウナ支出・性別・年代等の傾向を分析

最後に、各々のセグメントのイメージを具体的に掴む為に、サウナ支出・性別・年代といったデータを見ていきます。

f:id:shoshimin:20211029001353p:plain

f:id:shoshimin:20211029001416p:plain

f:id:shoshimin:20211029001435p:plain

(サウナ支出の中央値)

f:id:shoshimin:20211029001455p:plain

(サウナ支出の平均値)

f:id:shoshimin:20211029001556p:plain

その結果をまとめたのが、元記事で記載したスライドになります。

f:id:shoshimin:20211028225413p:plain

f:id:shoshimin:20211028215759p:plain

ここまでご覧頂きました方、大変お疲れさまでした笑 ビジネスのパフォーマンス向上を求める層は20、30代男性に多い等、ある程度肌感に合う示唆も出ている様に思います。自分の思いつきで「サ旅に興味あるのは15%で1万円ぐらいは次に使ってくれるだろう」と決め打ちするのではなく、根拠を持って判断できるのがこうした定量的なアプローチのメリットと感じています。アンケート収集に使ったGoogleフォーム、分析に使ったRもRadiantもPythonも無料ですし、何かの参考になると嬉しいです(私の人件費も0円ですが、、)。サウナ以外でも、こんな分析をお願いしたい、といったネタがありましたら、課外活動の一環として取り組めるかもしれませんので、お気軽にコンタクトください。

最後に、本記事について、何か分析上の不備があったり、抜けている観点等々ありましたら、何でもコメント頂けると嬉しいです。

長くなりましたが、以上です。