VTuberのツイートに対して高頻度でリプライするユーザの特性の試験的分析【にじさんじ】
(2020年12月14日)
こんにちは,しまさん(@shimasan0x00)です.
昔からツイートに対してコメント(リプライ)するユーザの特性について知りたいと思いながらもなかなか対象を決めることができずにお蔵入りしていました.
しかし,先日友人と話しているときに自分の分析対象としているVTuberを選定すればいいのではないかと思いついたので今回試験的に分析してみたいと思います.
対象とするVTuberの選定
ではツイートに対してコメントするユーザの特性を分析するのに適したVTuberとはどのようなVTuberでしょうか.
私はかなりの推しの感情を持つ視聴者をある程度抱えているVTuberがいいのではないかと考えました,
そのようなVTuberであれば,Twitterでのツイートに対して高頻度でコメントするユーザが少なからず存在することが推測され,「コメントするユーザ」の特性が観測しやすいと思いました.
推しの感情を持つユーザですが,ある程度配信の環境が閉じているVTuberであればその訓練され具合が高いと考え,以前の分析で明らかとなった配信におけるメンバーシップユーザの占有率の上位にくるにじさんじの「ドーラ」さんを選ばさせていただきました.
配信特性
member comment 54.42 %
member user 29.28 %
データ収集
まず,Twitter APIを用いてドーラさんの直近200ツイート(2020:12/11)の中からRT,リプライを除く118ツイートを収集し,そのなかから最新100ツイートのみを対象としました.
選択した100ツイートに対してリプライしたツイートをAPIを用いて収集します.
APIの収集できる期間制限もあって,実際にリプライがあるツイートデータは26となりました.
結果,26ツイートに合計927のリプライツイートデータを収集することができました.
実際にリプライをしたユニークユーザー数は345名です.
ドーラさんのフォロワーが約23.1万人であることを考えると実際にコメントをして直接返信を試みようとするユーザはフォロワーの中で0.15%ともうコメントをしている時点で特殊ユーザであるといえます.
ユーザのコメント数分布
まずはユーザ単位でドーラさんのツイートに対してどのくらいリプライを送っているのかを調査します.
上位ユーザはリプライのあったツイートの殆どに対してリプライを送っていることがわかります.
今回はRTデータは除いてはいますがそのRTに対してもリプライをしていそうな勢いです.
上位50位くらいのユーザは結構な頻度でリプライをしています.
上記で述べてはいますが,実際のフォロワー数から考えればかなり厳選されたファンです.
さいごに両対数でプロットした結果を以下に示します.
より特殊ユーザの抽出
ユーザのコメント数分布から一部のユーザが非常に多くのツイートに対してリプライをしていることがわかりました.
私はリプライをしたユーザの中のさらなる熱心なファンについて分析するために特性を調査するユーザを足切りしたいと思います.
今回は単純に収集したツイート数の半分(50%)以上に対してリプライしたユーザを特殊ユーザとして分析していきます.
結果14名が今回抽出されました.
FF比・一日平均ツイート数
特殊ユーザのFF比ですが,0.1-7.4までと非常に幅が広いです.
なお,FF比が1を超えているユーザは2名しかいませんでした.
SocialDogが述べている良いとされるFF比は0.7-2程度らしいのですが,それを考慮すると3名となります.
また,一日平均ツイート数はアカウント作成日から2020年12月13日までの日数と総ツイート数から割り出しました.
なんとこちらも5-176と幅が広いです.
しかし,よくよく考えると「一日平均」5ツイートも十分なのではないかと思います.
RTも考えれば現実的ではあるかもしれませんが.
絵文字含有ユーザ
にじさんじの配信者の方々は自身のファンを区別,判別するために「推しマーク」なるものを設定しています.
ドーラさんの場合は「🔥」(炎)です.
リプライをするようなユーザであれば推しマークである何かしらの絵文字を名前に含有している可能性が高いと考えられます.
そこで,リプライした全ユーザと特殊ユーザで絵文字の含有割合を調査します.
全ユーザ345中で絵文字を含有しているユーザは157名と約45%です.
名前に絵文字を含んでいなくてもプロフィール部分に絵文字を含ませているユーザもいるので実際に推しマークを自身と紐付けているユーザはこれよりもかなり多いです.
全ユーザの中で5回以上使用されている絵文字を紹介します.
実はこれらのデータからドーラさんとのコンビが好きなユーザ,ドーラさんの距離の近い配信者を導き出せそうだなと思ってます(+プロフィールで).
絵文字間の共起関係を見てあげればいけそうです.時間があればやりたいものです.
('🔥', 80)
('🌻', 16)
('👑', 14)
('🌸', 13)
('⚖', 12)
('🐈', 11)
('🔔', 10)
('🍹', 10)
('🦅', 9)
('🐬', 8)
('🎃', 7)
('🍶', 7)
('🎠', 7)
('💉', 7)
('🌈', 6)
('💜', 6)
('🔖', 6)
('🐰', 5)
('🍁', 5)
('🥃', 5)
('☪', 5)
('💘', 5)
('🌱', 5)
('🌵', 5)
('🐽', 5)
('📕', 5)
('🖥', 5)
特殊ユーザの場合,14名中11名が絵文字を含有しているユーザで,もちろん「🔥」持ちです.
リプライ・プロフィール可視化
実際にどのようなリプライをしているのか,その特徴を見るためにとりあえずwordcloudで可視化してみたいと思います.
特殊ユーザについてはプロフィール部分も同様にwordcloudで可視化します.
とりあえずMecab+Neologdで形態素解析をし,名詞のみを取り出してwordcloudに突っ込みます.
まずは全ユーザでのリプライ結果です.
次に特殊ユーザのリプライ結果です.
配信者の名前を述べている場合が多いのと,なにかしかの同意,許可を与える単語が目立つ結果となりました.
これらの結果はツイートの内容依存となってしまうことに注意が必要です.
しかし,リプライというものに共通する特性として上記の特徴が挙げられる可能性があります.
つまり,内容依存とはいえ中身は同意,許可,肯定に連なる場合が多いということです.
次に特殊ユーザのみではありますがプロフィール部分を可視化してみました.
ドーラさんのリスナー総称である「竜友」であったり,V,ガチ恋などそのユーザのパーソナリティをアカウントとして分離したユーザ群であることがわかります.
やはり趣味,自分の一部をアカウントとして切り分けて運用しているようです.
以前から進めているソーシャルメディア上におけるユーザ属性の推定・同定にも今回の結果は考察を進めていくのに良い結果が得られました.
簡単な感情分析
次にpythonのライブラリであるasariを使用して簡単な感情分析をしていきます.
asariを使用するとテキストのpositive/negative感情のスコアが得られます.
二値分類でかつ使用しやすいので採用しましたが,数値を試験的に調査するとそれぞれ0.5付近に分布するものがあり,どちらともいえない感情には別途ラベル(eq)を振ることにしました.
具体的にはpositiveとnegativeの差が0.1以下の場合eqを振ることにしています.
すべてのユーザの結果を以下に示します.
all : 927
positive : 837 90.29126213592234 %
negative : 60 6.472491909385113 %
eq : 30 3.2362459546925564 %
次に特殊ユーザの結果を以下に示します.
all : 253
positive : 219 86.56126482213439 %
negative : 22 8.695652173913043 %
eq : 12 4.743083003952568 %
どちらの場合も非常に多く肯定/positiveな感情が検出されていることがわかります.
しかし,negative判定されているものでも,
・しらん
・接続して大音量で流すとか…
みたいなnegative判定でもおかしくないテキストはいいのですが,
・了解! 無理ないように身体に気をつけてね〜
・昨日寝ながらつけて そこらへんで落としたんでしょ!
のようなnegativeではないようなものも一部検出されてはいました.
わざわざ該当アカウントをフォローして観測し,かつコメントまでするユーザなのでpositive/肯定的な結果になるのは当然に近く,熱烈なアンチやバズった印象のよくないツイートでもない限りnegativeになるようなことはないと推測されます.
@Userの付与されていないツイートをAPIを用いて収集すると違う世界が見えてくると考えられます.
動画に関してもそうで,わざわざリアルタイム配信中に配信に参加してリアルタイムにnegativeなコメントをするユーザはごく一部しか存在せず,燃えたりしてから該当動画(アーカイブ)を閲覧して動画コメントとして残したり,Like/DisLikeボタンを押すものであると考えられます.
さいごに
そもそもリプライをするユーザは今回調査したように全体の0.15%と非常に少ないです.
つまり,実際に配信者に声が届くのはごく一部のユーザからであることが改めて理解できます.
その他のユーザについては配信場所におけるlike/dislikeや視聴数,その他の属性,SNSの間接的なデータから判断するしかないのでしょう.
よく配信者の方々はエゴサをするといいますがそういう背景があるのでしょうね.