Python

にじさんじ,ホロライブライバーのフォロワー類似度をJaccard係数で可視化する

こんにちは,しまさん(@nitkcdadon)です.

最近にじさんじ,ホロライブのデータを集めたのでいろんなことを調査しています.

にじさんじ,ホロライブが獲得できているユーザ層は同じなのではないかと思って調べてみた今回はVTuberのTwitterのフォロワーのidを取得していこうと思います. そして各事務所ごとにsetオブジェクトとしてidを集めることでそれぞれの事務所が抱えているユーザ数がわかります. にじさんじ,ホロライブのユーザ層をPythonを使用して調査します....
にじさんじ,ホロライブは「箱推し」なのかTwitterデータから分析するVTuber事務所(にじさんじ,ホロライブ)に対してユーザは推しているのかをTwitterのフォロー数で近似することで調査しました[Python]. 結果,10000名が特異な特性を持つことがわかりました....

データを集めて色々やっているんですが,以前Hololiveのフォロー類似度をJaccard係数で可視化していることを思い出しました.

hololive所属ユーザのフォロー類似度をjaccard係数で可視化する話hololive所属ユーザのフォロー類似度をjaccard係数で可視化する話. PythonとTwitterAPIを使って可視化しました....

じゃあそれを今回はフォロワーデータでやってみようと思い立ったのでやります.

この分析に期待しているのはにじさんじ,ホロライブにおいて多くの共通しているフォロワーを持つライバーが明らかになること,そしてフォロワー類似度から得られたグラフにおける中心性分析の結果です.

特に媒介中心性によってコラボ等によってライバーを認知した結果フォローしたユーザ=YouTubeにおけるコラボ行動結果が間接的に出てくれるのではないかと期待してます.

コラボで異なるユーザ層にアプローチすることができるライバーがわかると面白いですね.

もちろん,対象とするユーザ層が近いことが出る可能性はあります(同期,特定のゲームファン,歌が好き,…).

今回分析した結果,にじさんじにおいては複数の連結成分が得られ,非常に興味深い結果となりました.

環境

  • macOS Catalina 10.15
  • Python 3.6.8

スポンサーリンク

Jaccard係数の計算

hololive所属ユーザのフォロー類似度をjaccard係数で可視化する話hololive所属ユーザのフォロー類似度をjaccard係数で可視化する話. PythonとTwitterAPIを使って可視化しました....

なお,Jaccard係数は差集合が大きいと値が小さくなってしまう性質があり,白上フブキや委員長などの他の所属ライバーから逸脱したフォロワー数がある場合は注意したほうがいいです.

にじさんじのチャンネル登録者数とTwitterのフォロワーの相関を見るまで[Python]そろそろYouTube Data APIを雑に触りたいので練習がてらソーシャルメディアをまたいだ関係分析をしてみたいと思います. 今回はVTuber事務所の1つであるにじさんじ,hololive(ホロライブ)に所属するVTuberのYouTubeチャンネル登録者数とTwitterのフォロワー数に相関があるか雑に分析します. 公式ページからスクレイピングして雑な辞書に様々なデータを格納していくことにします....

なお,Jaccard係数にすることでにじさんじの分析の際に,連結成分が複数獲得することができそうなのでSimpson係数は採用しませんでした.

スポンサーリンク

ホロライブの場合

まずはJaccard係数の分布を以下に示します.組み合わせは351ありました.

両対数でプロットしたものも以下に示します.

上位5件の組み合わせを載せておきます.

User-A User-B A-count B-count Jaccard 
tokoyamitowa    himemoriluna    51839   53568   0.643364
tsunomakiwatame tokoyamitowa    64807   51839   0.603381
nekomataokayu   inugamikorone   126237  122823  0.597655
tsunomakiwatame himemoriluna    64807   53568   0.595824
amanekanatach   tsunomakiwatame 78197   64807   0.591356

また,分布からJaccard係数のしきい値を0.4に設定し,結果116のエッジを得ました.

比較的新しいライバーが組み合わせ上位に来ています.

これは活動日が浅いライバーをフォローするユーザはイノベーターやアーリーアダプターみたいな層である可能性が高い,もしくは「該当事務所」を信用している結果,新規ライバーに流動した可能性があります.

次は中心性分析です.

次数中心性上位5件を以下に示します.

'shiranuiflare', 0.64
'oozorasubaru', 0.6
'usadapekora', 0.56
'murasakishionch', 0.56
'ookamimio', 0.56

媒介中心性上位5件も示します.

'shiranuiflare', 0.1655558587243193
'oozorasubaru', 0.14002757223770995
'usadapekora', 0.093026862564034
'murasakishionch', 0.08893245302419271
'ookamimio', 0.07667265982985634

では今回表出したグラフを以下に示します.

新しくデビューした4期生は先述しましたが非常に大きいJaccard係数が得られています.

今回,不知火フレアさんが次数中心性,媒介中心性においてTOPである結果には驚きました.

周囲ノードに共通しているフォロワーが多く,異なる層へも繋ぐことができるライバーとなるでしょうか.

逆にJaccard係数が小さいことが悪いということではなく,次数が少ないほうが独自で獲得しているユーザ層が存在する可能性はあります.

ただ,このライバーをフォローしているならこのライバーもオススメだよという推薦はできるかもしれません.

大神ミオさんは大人数のコラボを何回かやっているのでその影響からJaccard係数が高い可能性が考えられ,コラボ活動における影響を推定するのにこの分析は有効なことが期待できます.

にじさんじの場合

まずはJaccard係数の分布を以下に示します.組み合わせは4656ありました.

両対数でプロットしたものも以下に示します.

ホロライブの場合と似た分布が得られています.

上位5件の組み合わせを載せておきます.

User-A User-B A-count B-count Jaccard 
furen-e-lustario    melissa-kinrenka    44339   37233   0.671866
lize-helesta    ange-katrina    189563  192445  0.669382
naraka  natsume-kurusu  52592   45146   0.660855
air-harusaki    naru-naruse 54088   44393   0.655727
fumi    karuta-yamagami 64029   54717   0.652348

分布からJaccard係数のしきい値を0.5に設定し,結果237のエッジを得ました.

ホロライブの場合と同様で比較的新しいライバーが組み合わせ上位に来ています.

次は中心性分析です.

次数中心性上位5件を以下に示します.

'haruka-onomachi', 0.20481927710843376
'levi-elipha', 0.18072289156626506
'karuta-yamagami', 0.16867469879518074
'Hina-Asuka', 0.1566265060240964
'sou-hayase', 0.14457831325301207

媒介中心性上位5件も示します.

'Ritsuki-Sakura', 0.3820355967465271
'Makaino-Ririmu', 0.2553629150749339
'youko-akabane', 0.22538936232735823
'Riri-Yuhi', 0.21669605250269366
'Kakeru-Yumeoi', 0.20205121279404226

では今回表出したグラフを以下に示します.

なお,にじさんじの場合は複数の連結成分が獲得されました.

まずは全体像です.

では最大連結成分ではないものから見ていきます.

JK組やさんばかなどがしっかりと現れていて面白いです.フォロワー層も共通している部分が多いことがわかります.

ここで面白いのがJK組やさんばかなどのグループがフォロワーの類似度だけで現れている点です.

次は最大連結成分です.

最後はこれでも見えづらいですが工夫してみました.

夢追さんなんかは大人数で地獄コラボをしているので媒介中心性が高いのはわかります.

最大連結成分に関しては私がにわかなのであまり追求することができないです.

是非有識者,にじさんじに詳しい人がいたら教えてくれると嬉しいです.

※得られたグラフの詳細な部分まで見れるPDFをダウンロードできるようにnoteに記事を投稿しています(Cytoscapeのファイルも含む).

スポンサーリンク

さいごに

今回はJaccard係数を使用してにじさんじ,ホロライブライバーのフォロワー類似度を計算し,可視化をしました.

フォロワー類似度だけでグループが抽出できていたり,コラボの行動結果によってフォロワーが獲得されている可能性が出てきたので有益だったなと思います.

先程も書きましたが,にじさんじ(ホロライブも)に対する知識があまりないので追求することが難しいです.

是非詳しい人がいたら,このライバーとこのライバーが繋がっているのは納得!とかこのライバーとこのライバーが繋がっているのは意外!!など教えてくれると嬉しいです!!!!!

ABOUT ME
しまさん
てくてくぷれいす運営者のしまさんです. 高専→大学編入してから行動的な大学生  自身の変化を求めてブログを始める グレープフルーツと本が大好物 IT系のことやブログ,高専や編入,大学生活に関することを発信中!!詳しいプロフィールはこちら≫ 投げ銭はコチラへ YouTubeはコチラへ 質問はコチラ