小市民ブログ

KelloggってMBAを出てアメリカで移民サバイバル生活をしています。サウナが好きです

PythonでTwitterの分析をしてみよう

かなり長いことブログをサボってしまっておりましたが、皆様いかがお過ごしでしょうか。Evanstonは2月上旬のマイナス20度前後の地獄の寒さも峠を越え、ここ数日は10度弱の過ごしやすい天気です(にしても寒暖差激しすぎだ)。

以前Kelloggの在学中に何をするかということをまとめていましたが、その中の一つとしてData Analyticsを掲げていました。定量分析をして示唆を出すというのは実は自分のキャリアの早い段階からのテーマの一つで、前職の日系企業で仕事をする中でも、データを見て統計的に意思決定すればもう少し稼げるのにな、と思う場面に度々遭遇しました。しかしながら、定量分析を実務に落とし込む為にはBusiness・Analytics両面の理解が不可欠となる一方、2つとも理解した上で業務改善していける人は極めて希少というのが私の認識です。自分でCodeをどの程度書くかは別として、データを活用して意思決定の精度を高めていくのは、様々な業界に共通するテーマに思われるため、MBA在学中に注力して勉強する予定です。

その中でWhy Python?というところですが、何人かに相談したところ、Data Analytics分野ならPython一択との声を聞きました。比較的習得が容易(シンプルな構造+ネット上にリソースが多い)・汎用性が高い(データの取得から統計分析、機械学習まで一気通貫で出来る)あたりが理由となる様で、基本的にはPythonに注力していこうと思っています。

Twitterの分析

さて、ここから本題のTwitterの分析です。別にTwitterじゃなくても良かったのですが、まとまった定量データが入手できて、わかりやすい示唆が出せそうなのがTwitterだったので選びました。過去6ヶ月分のツイートのCSVファイルをTwitterからDL、Pythonで結合・分析したデータが以下です。分析にあたっては以下HPを大いに参考に(というかほぼパクリ)させて頂きました。

ツイート時間

全ツイートを棒グラフに表してみたところ、夜にツイートが増える傾向でした。午前中・夕方は作業時間との位置づけの為ツイートは控えているつもりでしたが、結構Twitterを見てしまっているようです。6時台に増えているのは、起床後、溜まっているリプライを返しているのが要因と思われます。

f:id:shoshimin:20210227121206p:plain

インプレッション、いいねの相関

左はインプレッション(x軸)、いいね(y軸)の散布図+回帰分析をしており、右側ではいいねやリツイート等の定量項目の相関係数をヒートマップに表したものです。傾向としてインプレッションが多い程いいねが多いというあたりまえ体操な結果になりました。外れ値を見ていけば示唆があるかもですが、面倒なので省きます。

f:id:shoshimin:20210227121237p:plainf:id:shoshimin:20210227121308p:plain

文字数といいねの関係

30いいね以上:A、5以上30未満:B、5未満:Cとしてツイートを評価し、文字数を縦軸にとって棒グラフにしてみました。分け方がざっくりなのはともあれ、傾向としては文字数が多いほどいいねも多くなる傾向があるようです。

f:id:shoshimin:20210227121811p:plain

テキスト分析

上記のA、B、Cのツイート群それぞれを単語に分解し、出現頻度が多い順30個ずつ並べてみました(助詞や助動詞は除きました)。すると、A、Bの上位にMBAが入っており、またAの真ん中辺りにKelloggもランクインしておりました。5いいね未満のカスツイート群(C)には登場していないので、MBA、Kelloggが含まれるツイートは安定的にいいねがそこそこ取れている模様です。

f:id:shoshimin:20210227121454p:plain

f:id:shoshimin:20210227121508p:plain

f:id:shoshimin:20210227121529p:plain

MBAとKelloggが含まれるツイートと、それ以外という形でも比較してみました。いずれも、MBA/Kelloggが含まれる方がいいね数は顕著に高く、特にMBAについては含まれる場合、そうでない場合で2倍以上の差がついているようです。一応MBAの情報発信アカウントとして機能していると考えても良いのでしょうか。

f:id:shoshimin:20210227121558p:plainf:id:shoshimin:20210227121614p:plain

まだまだ初心者ですが、基本的なデータの加工、グラフ化、分析の流れはなんとなく把握できたので、留学中は継続していけたらと思います。