にじさんじ,ホロライブライバーのフォロワー類似度をJaccard係数で可視化する
(2020年2月24日)
こんにちは,しまさん(@shimasan0x00)です.
最近にじさんじ,ホロライブのデータを集めたのでいろんなことを調査しています.
今回はフォロワーデータで類似度をJaccard係数で可視化やってみようと思い立ったのでやります.
この分析に期待しているのはにじさんじ,ホロライブにおいて多くの共通しているフォロワーを持つライバーが明らかになること,そしてフォロワー類似度から得られたグラフにおける中心性分析の結果です.
特に媒介中心性によってコラボ等によってライバーを認知した結果フォローしたユーザ=YouTubeにおけるコラボ行動結果が間接的に出てくれるのではないかと期待してます.
コラボで異なるユーザ層にアプローチすることができるライバーがわかると面白いですね.
もちろん,対象とするユーザ層が近いことが出る可能性はあります(同期,特定のゲームファン,歌が好き,…).
今回分析した結果,にじさんじにおいては複数の連結成分が得られ,非常に興味深い結果となりました.
環境
- macOS Catalina 10.15
- Python 3.6.8
Jaccard係数の計算
Jaccard係数は差集合が大きいと値が小さくなってしまう性質があり,白上フブキや委員長などの他の所属ライバーから逸脱したフォロワー数がある場合は注意したほうがいいです.
なお,Jaccard係数にすることでにじさんじの分析の際に,連結成分が複数獲得することができそうなのでSimpson係数は採用しませんでした.
ホロライブの場合
まずはJaccard係数の分布を以下に示します.組み合わせは351ありました.
両対数でプロットしたものも以下に示します.
上位5件の組み合わせを載せておきます.
User-A User-B A-count B-count Jaccard
tokoyamitowa himemoriluna 51839 53568 0.643364
tsunomakiwatame tokoyamitowa 64807 51839 0.603381
nekomataokayu inugamikorone 126237 122823 0.597655
tsunomakiwatame himemoriluna 64807 53568 0.595824
amanekanatach tsunomakiwatame 78197 64807 0.591356
また,分布からJaccard係数のしきい値を0.4に設定し,結果116のエッジを得ました.
比較的新しいライバーが組み合わせ上位に来ています.
これは活動日が浅いライバーをフォローするユーザはイノベーターやアーリーアダプターみたいな層である可能性が高い,もしくは「該当事務所」を信用している結果,新規ライバーに流動した可能性があります.
次は中心性分析です.
次数中心性上位5件を以下に示します.
'shiranuiflare', 0.64
'oozorasubaru', 0.6
'usadapekora', 0.56
'murasakishionch', 0.56
'ookamimio', 0.56
媒介中心性上位5件も示します.
'shiranuiflare', 0.1655558587243193
'oozorasubaru', 0.14002757223770995
'usadapekora', 0.093026862564034
'murasakishionch', 0.08893245302419271
'ookamimio', 0.07667265982985634
では今回表出したグラフを以下に示します.
新しくデビューした4期生は先述しましたが非常に大きいJaccard係数が得られています.
今回,不知火フレアさんが次数中心性,媒介中心性においてTOPである結果には驚きました.
周囲ノードに共通しているフォロワーが多く,異なる層へも繋ぐことができるライバーとなるでしょうか.
逆にJaccard係数が小さいことが悪いということではなく,次数が少ないほうが独自で獲得しているユーザ層が存在する可能性はあります.
ただ,このライバーをフォローしているならこのライバーもオススメだよという推薦はできるかもしれません.
大神ミオさんは大人数のコラボを何回かやっているのでその影響からJaccard係数が高い可能性が考えられ,コラボ活動における影響を推定するのにこの分析は有効なことが期待できます.
にじさんじの場合
まずはJaccard係数の分布を以下に示します.組み合わせは4656ありました.
両対数でプロットしたものも以下に示します.
ホロライブの場合と似た分布が得られています.
上位5件の組み合わせを載せておきます.
User-A User-B A-count B-count Jaccard
furen-e-lustario melissa-kinrenka 44339 37233 0.671866
lize-helesta ange-katrina 189563 192445 0.669382
naraka natsume-kurusu 52592 45146 0.660855
air-harusaki naru-naruse 54088 44393 0.655727
fumi karuta-yamagami 64029 54717 0.652348
分布からJaccard係数のしきい値を0.5に設定し,結果237のエッジを得ました.
ホロライブの場合と同様で比較的新しいライバーが組み合わせ上位に来ています.
次は中心性分析です.
次数中心性上位5件を以下に示します.
'haruka-onomachi', 0.20481927710843376
'levi-elipha', 0.18072289156626506
'karuta-yamagami', 0.16867469879518074
'Hina-Asuka', 0.1566265060240964
'sou-hayase', 0.14457831325301207
媒介中心性上位5件も示します.
'Ritsuki-Sakura', 0.3820355967465271
'Makaino-Ririmu', 0.2553629150749339
'youko-akabane', 0.22538936232735823
'Riri-Yuhi', 0.21669605250269366
'Kakeru-Yumeoi', 0.20205121279404226
では今回表出したグラフを以下に示します.
なお,にじさんじの場合は複数の連結成分が獲得されました.
まずは全体像です.
では最大連結成分ではないものから見ていきます.
JK組やさんばかなどがしっかりと現れていて面白いです.フォロワー層も共通している部分が多いことがわかります.
ここで面白いのがJK組やさんばかなどのグループがフォロワーの類似度だけで現れている点です.
次は最大連結成分です.
最後はこれでも見えづらいですが工夫してみました.
夢追さんなんかは大人数で地獄コラボをしているので媒介中心性が高いのはわかります.
最大連結成分に関しては私がにわかなのであまり追求することができないです.
是非有識者,にじさんじに詳しい人がいたら教えてくれると嬉しいです.
※得られたグラフの詳細な部分まで見れるPDFをダウンロードできるようにnoteに記事を投稿しています(Cytoscapeのファイルも含む).
さいごに
今回はJaccard係数を使用してにじさんじ,ホロライブライバーのフォロワー類似度を計算し,可視化をしました.
フォロワー類似度だけでグループが抽出できていたり,コラボの行動結果によってフォロワーが獲得されている可能性が出てきたので有益だったなと思います.
先程も書きましたが,にじさんじ(ホロライブも)に対する知識があまりないので追求することが難しいです.
是非詳しい人がいたら,このライバーとこのライバーが繋がっているのは納得!とかこのライバーとこのライバーが繋がっているのは意外!!など教えてくれると嬉しいです!!!!!