Python

にじさんじライバーの類似度をTwitterの自己紹介部分をベクトル化して間接的に計算してみた(BoW,TF-IDF)

こんにちは,しまさん(@shimasan0x00)です.

最近はVTuber関係の分析を思い立ったときに多数行っています.

ですが,今までほぼ手を付けていない分野が存在します.

それは「自然言語処理」です.

Twitterデータを触るなかで,Userのidを触ったり,各種数値を計上することはありましたが自然言語に手をつけることはほぼありませんでした(魔窟なので).

今回は手始めとして,文章量は心もとないですがにじさんじライバーのTwitterプロフィールをベクトル化(TF-IDF,BoW)して,cos類似度で比較することで各ライバーの類似ライバーを探してみたいと思います.

分析結果は非常に長いので,『「自分の気になるライバー」』で検索するのをオススメします.

環境

  • macOS Catalina 10.15
  • Python 3.6.8

スポンサーリンク

処理手順

  1. 以前収集したライバーのTwitterのスクリーン名からbio情報を収集する
  2. URLを除去後,Mecab+mecab-ipadic-NEologdで名詞取り出し
  3. sklearnでTF-IDF,BoW作成
  4. sklearnのcos類似度関数で比較
  5. それぞれの類似度上位3件を表示

スポンサーリンク

分析結果

VTuber : 「mito-tsukino」

tf-idf cosine similarity top3:

1 : ('Riri-Yuhi', 0.10798461439765152)
2 : ('Kakeru-Yumeoi', 0.1057101684042353)
3 : ('luis-cammy', 0.09153164874045291)

BoW cosine similarity top3:

1 : ('Riri-Yuhi', 0.29019050004400465)
2 : ('Kakeru-Yumeoi', 0.22360679774997902)
3 : ('himawari-honma', 0.19069251784911848)

VTuber : 「himawari-honma」

tf-idf cosine similarity top3:

1 : ('Saku-Sasaki', 0.18520546421805312)
2 : ('sara-hoshikawa', 0.15688626034959963)
3 : ('ratna-petit', 0.15021812582827598)

BoW cosine similarity top3:

1 : ('Saku-Sasaki', 0.3481553119113957)
2 : ('sara-hoshikawa', 0.2461829819586655)
3 : ('ratna-petit', 0.22613350843332272)

VTuber : 「Saku-Sasaki」

tf-idf cosine similarity top3:

1 : ('air-harusaki', 0.18929436660578178)
2 : ('himawari-honma', 0.18520546421805312)
3 : ('tamaki-fumino', 0.12767877746353307)

BoW cosine similarity top3:

1 : ('himawari-honma', 0.3481553119113957)
2 : ('air-harusaki', 0.3202563076101743)
3 : ('naru-naruse', 0.2886751345948129)

VTuber : 「era-otogibara」

tf-idf cosine similarity top3:

1 : ('Toya-Kenmochi', 0.12777419267492116)
2 : ('belmond-banderas', 0.09909429377634238)
3 : ('Yuika-Shiina', 0.07809398704734685)

BoW cosine similarity top3:

1 : ('Toya-Kenmochi', 0.408248290463863)
2 : ('Yuika-Shiina', 0.30618621784789724)
3 : ('nui-sociere', 0.30618621784789724)

VTuber : 「Yuika-Shiina」

tf-idf cosine similarity top3:

1 : ('Toya-Kenmochi', 0.11649783774701625)
2 : ('belmond-banderas', 0.08638774441433916)
3 : ('rena-yorumi', 0.07945650099433224)

BoW cosine similarity top3:

1 : ('Toya-Kenmochi', 0.3749999999999999)
2 : ('mao-matsukai', 0.35355339059327373)
3 : ('Tsumugu-Kataribe', 0.35355339059327373)

VTuber : 「Kaede-Higuchi」

tf-idf cosine similarity top3:

1 : ('Meiji-Warabeda', 0.13563615176103205)
2 : ('miyako-seto', 0.11680685052006985)
3 : ('ars-almal', 0.10934066492714414)

BoW cosine similarity top3:

1 : ('Meiji-Warabeda', 0.2988071523335984)
2 : ('ars-almal', 0.2795084971874737)
3 : ('Hajime-Shibuya', 0.26967994498529685)

VTuber : 「Rin-Shizuka」

tf-idf cosine similarity top3:

1 : ('eli-conifer', 0.1789378421635141)
2 : ('Hajime-Shibuya', 0.15898035770727326)
3 : ('Shoichi-Kanda', 0.13723422202966074)

BoW cosine similarity top3:

1 : ('Sister-Claire', 0.3726779962499649)
2 : ('Shoichi-Kanda', 0.3726779962499649)
3 : ('fumi', 0.3726779962499649)

VTuber : 「Roa-Yuzuki」

tf-idf cosine similarity top3:

1 : ('Ryushen', 0.1554747982981941)
2 : ('fuyuki-hakase', 0.14669132626467352)
3 : ('Kakeru-Yumeoi', 0.14327303047246534)

BoW cosine similarity top3:

1 : ('fuyuki-hakase', 0.3278050340535929)
2 : ('Ryushen', 0.2886751345948129)
3 : ('Kakeru-Yumeoi', 0.2886751345948129)

VTuber : 「lize-helesta」

tf-idf cosine similarity top3:

1 : ('tomoe-shirayuki', 0.10927378272660826)
2 : ('shellin-burgundy', 0.10699566242140947)
3 : ('natsume-kurusu', 0.08903247819436697)

BoW cosine similarity top3:

1 : ('Ryushen', 0.29462782549439476)
2 : ('Sister-Claire', 0.2777777777777778)
3 : ('fumi', 0.2777777777777778)

VTuber : 「Ryushen」

tf-idf cosine similarity top3:

1 : ('Roa-Yuzuki', 0.1554747982981941)
2 : ('naru-naruse', 0.15211869591094462)
3 : ('mashiro', 0.12621285767522733)

BoW cosine similarity top3:

1 : ('Sister-Claire', 0.4714045207910316)
2 : ('Ritsuki-Sakura', 0.4714045207910316)
3 : ('Shoichi-Kanda', 0.4714045207910316)

VTuber : 「Utako-Suzuka」

tf-idf cosine similarity top3:

1 : ('naru-naruse', 0.25574094083779864)
2 : ('emma-august', 0.1779242339805841)
3 : ('Rin-Shizuka', 0.12884660644625795)

BoW cosine similarity top3:

1 : ('naru-naruse', 0.3849001794597505)
2 : ('Ryushen', 0.34020690871988585)
3 : ('fumi', 0.3207501495497921)

VTuber : 「kuzuha」

tf-idf cosine similarity top3:

1 : ('Shoichi-Kanda', 0.08213374359450938)
2 : ('haruka-onomachi', 0.06378046181322759)
3 : ('Masaru-Suzuki', 0.05629276532953985)

BoW cosine similarity top3:

1 : ('ex-albio', 0.11547005383792518)
2 : ('Kou-Uduki', 0.1091089451179962)
3 : ('Shoichi-Kanda', 0.09622504486493763)

VTuber : 「lulu-suzuhara」

tf-idf cosine similarity top3:

1 : ('manami-aizono', 0.09201211695645356)
2 : ('kai-mayuzumi', 0.09155161384234284)
3 : ('Ryushen', 0.08028339347929081)

BoW cosine similarity top3:

1 : ('Ryushen', 0.3333333333333333)
2 : ('kai-mayuzumi', 0.26352313834736496)
3 : ('Sister-Claire', 0.23570226039551587)

VTuber : 「ange-katrina」

tf-idf cosine similarity top3:

1 : ('Shoichi-Kanda', 0.11787755909353373)
2 : ('luis-cammy', 0.07445008541180888)
3 : ('Gilzaren-%E2%85%A2', 0.06327904834873849)

BoW cosine similarity top3:

1 : ('Shoichi-Kanda', 0.25)
2 : ('mao-matsukai', 0.25)
3 : ('Tsumugu-Kataribe', 0.25)

VTuber : 「ars-almal」

tf-idf cosine similarity top3:

1 : ('Meiji-Warabeda', 0.18366225188346852)
2 : ('kai-mayuzumi', 0.1447534542003337)
3 : ('miyako-seto', 0.14055382852081544)

BoW cosine similarity top3:

1 : ('Meiji-Warabeda', 0.40089186286863654)
2 : ('Toya-Kenmochi', 0.35355339059327373)
3 : ('fumi', 0.3333333333333333)

VTuber : 「belmond-banderas」

tf-idf cosine similarity top3:

1 : ('Toya-Kenmochi', 0.18795028113325182)
2 : ('nui-sociere', 0.18072022308830438)
3 : ('melissa-kinrenka', 0.16502555864717172)

BoW cosine similarity top3:

1 : ('Toya-Kenmochi', 0.4714045207910316)
2 : ('nui-sociere', 0.35355339059327373)
3 : ('melissa-kinrenka', 0.35355339059327373)

VTuber : 「Mikoto-Rindou」

tf-idf cosine similarity top3:

1 : ('tomoe-shirayuki', 0.16748916569120262)
2 : ('mito-tsukino', 0.0)
3 : ('himawari-honma', 0.0)

BoW cosine similarity top3:

1 : ('tomoe-shirayuki', 0.16222142113076252)
2 : ('mito-tsukino', 0.0)
3 : ('himawari-honma', 0.0)

VTuber : 「toko-inui」

tf-idf cosine similarity top3:

1 : ('fumi', 0.1390334663067265)
2 : ('hayato-kagami', 0.12149658870820877)
3 : ('ars-almal', 0.11232237958681365)

BoW cosine similarity top3:

1 : ('fumi', 0.40422604172722154)
2 : ('Toya-Kenmochi', 0.34299717028501764)
3 : ('nui-sociere', 0.34299717028501764)

VTuber : 「hayato-kagami」

tf-idf cosine similarity top3:

1 : ('ars-almal', 0.12393822950728872)
2 : ('Rin-Shizuka', 0.12378231353823974)
3 : ('toko-inui', 0.12149658870820877)

BoW cosine similarity top3:

1 : ('Toya-Kenmochi', 0.33541019662496846)
2 : ('nui-sociere', 0.33541019662496846)
3 : ('melissa-kinrenka', 0.33541019662496846)

VTuber : 「joe-rikiichi」

tf-idf cosine similarity top3:

1 : ('furen-e-lustario', 0.15773811152873637)
2 : ('nui-sociere', 0.14340727125491431)
3 : ('Toya-Kenmochi', 0.08342507035408045)

BoW cosine similarity top3:

1 : ('Ryushen', 0.23717082451262841)
2 : ('Toya-Kenmochi', 0.23717082451262841)
3 : ('nui-sociere', 0.23717082451262841)

VTuber : 「debidebi-debiru」

tf-idf cosine similarity top3:

1 : ('air-harusaki', 0.0763085946444014)
2 : ('tomoe-shirayuki', 0.07130543748329661)
3 : ('Hina-Asuka', 0.06592701299414218)

BoW cosine similarity top3:

1 : ('Saku-Sasaki', 0.14433756729740646)
2 : ('air-harusaki', 0.1386750490563073)
3 : ('uiha-aiba', 0.125)

VTuber : 「rena-yorumi」

tf-idf cosine similarity top3:

1 : ('belmond-banderas', 0.15305568235992356)
2 : ('Keisuke-Maimoto', 0.12456863665836199)
3 : ('nui-sociere', 0.12033626783757728)

BoW cosine similarity top3:

1 : ('Yuika-Shiina', 0.30618621784789724)
2 : ('Toya-Kenmochi', 0.30618621784789724)
3 : ('nui-sociere', 0.30618621784789724)

VTuber : 「Toya-Kenmochi」

tf-idf cosine similarity top3:

1 : ('belmond-banderas', 0.18795028113325182)
2 : ('naru-naruse', 0.1737413852201648)
3 : ('fumi', 0.13207148525046694)

BoW cosine similarity top3:

1 : ('belmond-banderas', 0.4714045207910316)
2 : ('fumi', 0.4714045207910316)
3 : ('era-otogibara', 0.408248290463863)

VTuber : 「Elu」

tf-idf cosine similarity top3:

1 : ('gwelu-os-gar', 0.14543875260913178)
2 : ('ibrahim', 0.12499465150412017)
3 : ('melissa-kinrenka', 0.09945903713624725)

BoW cosine similarity top3:

1 : ('uiha-aiba', 0.1720618004029213)
2 : ('Sister-Claire', 0.15294382258037448)
3 : ('ibrahim', 0.13834289277321493)

VTuber : 「chaika-hanabatake」

tf-idf cosine similarity top3:

1 : ('dola', 0.0638798405355055)
2 : ('ex-albio', 0.05882538298816601)
3 : ('toko-inui', 0.05655925821140401)

BoW cosine similarity top3:

1 : ('ex-albio', 0.12060453783110546)
2 : ('Kou-Uduki', 0.11396057645963795)
3 : ('mito-tsukino', 0.09534625892455924)

VTuber : 「kana-sukoya」

tf-idf cosine similarity top3:

1 : ('ratna-petit', 0.3184356725689355)
2 : ('fumi', 0.15295311769810088)
3 : ('naru-naruse', 0.1117367684222857)

BoW cosine similarity top3:

1 : ('fumi', 0.4303314829119351)
2 : ('ratna-petit', 0.3872983346207416)
3 : ('sou-hayase', 0.37267799624996495)

VTuber : 「Keisuke-Maimoto」

tf-idf cosine similarity top3:

1 : ('Sayo-Amemori', 0.1922834946018738)
2 : ('nui-sociere', 0.1367146931747186)
3 : ('Kakeru-Yumeoi', 0.13114397593802501)

BoW cosine similarity top3:

1 : ('Kakeru-Yumeoi', 0.3429971702850177)
2 : ('nui-sociere', 0.34299717028501764)
3 : ('luis-cammy', 0.29250896965085227)

VTuber : 「Kakeru-Yumeoi」

tf-idf cosine similarity top3:

1 : ('luis-cammy', 0.18191903560598488)
2 : ('Roa-Yuzuki', 0.14327303047246534)
3 : ('Keisuke-Maimoto', 0.13114397593802501)

BoW cosine similarity top3:

1 : ('luis-cammy', 0.4264014327112209)
2 : ('Keisuke-Maimoto', 0.3429971702850177)
3 : ('nui-sociere', 0.3333333333333333)

VTuber : 「Ichigo-Ushimi」

tf-idf cosine similarity top3:

1 : ('Meiji-Warabeda', 0.11029753558885838)
2 : ('Alice-Mononobe', 0.09404073104681715)
3 : ('Mugi-Ienaga', 0.062254470881814836)

BoW cosine similarity top3:

1 : ('Meiji-Warabeda', 0.12598815766974242)
2 : ('Alice-Mononobe', 0.09622504486493764)
3 : ('Mugi-Ienaga', 0.07856742013183862)

VTuber : 「nui-sociere」

tf-idf cosine similarity top3:

1 : ('melissa-kinrenka', 0.20810867791812573)
2 : ('belmond-banderas', 0.18072022308830438)
3 : ('joe-rikiichi', 0.14340727125491431)

BoW cosine similarity top3:

1 : ('melissa-kinrenka', 0.4999999999999999)
2 : ('Toya-Kenmochi', 0.3749999999999999)
3 : ('belmond-banderas', 0.35355339059327373)

VTuber : 「sara-hoshikawa」

tf-idf cosine similarity top3:

1 : ('himawari-honma', 0.15688626034959963)
2 : ('chima-machita', 0.0832801176963307)
3 : ('Hajime-Shibuya', 0.06945843572914395)

BoW cosine similarity top3:

1 : ('himawari-honma', 0.2461829819586655)
2 : ('uiha-aiba', 0.15309310892394865)
3 : ('chima-machita', 0.14852213144650117)

VTuber : 「akina-saegusa」

tf-idf cosine similarity top3:

1 : ('nui-sociere', 0.058264459372822215)
2 : ('Riri-Yuhi', 0.05680676562262883)
3 : ('Kakeru-Yumeoi', 0.056215735538236986)

BoW cosine similarity top3:

1 : ('nui-sociere', 0.30618621784789724)
2 : ('mao-matsukai', 0.2886751345948129)
3 : ('Tsumugu-Kataribe', 0.2886751345948129)

VTuber : 「Ritsuki-Sakura」

tf-idf cosine similarity top3:

1 : ('naru-naruse', 0.12343273449877687)
2 : ('Ryushen', 0.10530709645746977)
3 : ('fumi', 0.09870645687002978)

BoW cosine similarity top3:

1 : ('Ryushen', 0.4714045207910316)
2 : ('Sister-Claire', 0.4444444444444444)
3 : ('Shoichi-Kanda', 0.4444444444444444)

VTuber : 「fuyuki-hakase」

tf-idf cosine similarity top3:

1 : ('Roa-Yuzuki', 0.14669132626467352)
2 : ('manami-aizono', 0.14004378845078083)
3 : ('kai-mayuzumi', 0.12420832192665712)

BoW cosine similarity top3:

1 : ('manami-aizono', 0.33384893044479436)
2 : ('Roa-Yuzuki', 0.3278050340535929)
3 : ('Ryushen', 0.32444284226152503)

VTuber : 「Mugi-Ienaga」

tf-idf cosine similarity top3:

1 : ('youko-akabane', 0.09419629117266703)
2 : ('manami-aizono', 0.09154522509545655)
3 : ('Ichigo-Ushimi', 0.062254470881814836)

BoW cosine similarity top3:

1 : ('mao-matsukai', 0.3333333333333333)
2 : ('Tsumugu-Kataribe', 0.3333333333333333)
3 : ('rine-yaguruma', 0.2519763153394848)

VTuber : 「Kou-Uduki」

tf-idf cosine similarity top3:

1 : ('ex-albio', 0.17381007285983732)
2 : ('Hina-Asuka', 0.1101375301388391)
3 : ('Aki-Suzuya', 0.09116444693916499)

BoW cosine similarity top3:

1 : ('ex-albio', 0.22677868380553634)
2 : ('Hina-Asuka', 0.14824986333222023)
3 : ('marin-hayama', 0.13801311186847082)

VTuber : 「Makaino-Ririmu」

tf-idf cosine similarity top3:

1 : ('Riri-Yuhi', 0.11616016146805573)
2 : ('Roa-Yuzuki', 0.04543130793572568)
3 : ('mao-matsukai', 0.009536623120257626)

BoW cosine similarity top3:

1 : ('Riri-Yuhi', 0.14350946197048195)
2 : ('mao-matsukai', 0.10425720702853739)
3 : ('Tsumugu-Kataribe', 0.10425720702853739)

VTuber : 「emma-august」

tf-idf cosine similarity top3:

1 : ('naru-naruse', 0.38816715075307634)
2 : ('Utako-Suzuka', 0.1779242339805841)
3 : ('Ryushen', 0.07047916811988603)

BoW cosine similarity top3:

1 : ('naru-naruse', 0.5303300858899106)
2 : ('Utako-Suzuka', 0.2721655269759087)
3 : ('Ryushen', 0.24999999999999994)

VTuber : 「Shoichi-Kanda」

tf-idf cosine similarity top3:

1 : ('Hajime-Shibuya', 0.2802285863829056)
2 : ('Sister-Claire', 0.24369397541470572)
3 : ('haruka-onomachi', 0.15679433040852242)

BoW cosine similarity top3:

1 : ('Sister-Claire', 0.5555555555555556)
2 : ('Ryushen', 0.4714045207910316)
3 : ('Ritsuki-Sakura', 0.4444444444444444)

VTuber : 「moira」

tf-idf cosine similarity top3:

1 : ('Riri-Yuhi', 0.09670772046031394)
2 : ('luis-cammy', 0.0822764834456909)
3 : ('gwelu-os-gar', 0.07449860367298686)

BoW cosine similarity top3:

1 : ('luis-cammy', 0.20225995873897262)
2 : ('ex-albio', 0.17888543819998318)
3 : ('Riri-Yuhi', 0.1538967528127731)

VTuber : 「uiha-aiba」

tf-idf cosine similarity top3:

1 : ('Hina-Asuka', 0.11606133501681212)
2 : ('kyoko-todoroki', 0.11302981229216451)
3 : ('kai-mayuzumi', 0.10745061036971047)

BoW cosine similarity top3:

1 : ('Sister-Claire', 0.3333333333333333)
2 : ('luis-cammy', 0.30151134457776363)
3 : ('Kakeru-Yumeoi', 0.2946278254943948)

VTuber : 「Riri-Yuhi」

tf-idf cosine similarity top3:

1 : ('luis-cammy', 0.14397393787215754)
2 : ('Makaino-Ririmu', 0.11616016146805573)
3 : ('mito-tsukino', 0.10798461439765152)

BoW cosine similarity top3:

1 : ('luis-cammy', 0.4150286783196448)
2 : ('Kakeru-Yumeoi', 0.3244428422615251)
3 : ('Ryushen', 0.32444284226152503)

VTuber : 「shellin-burgundy」

tf-idf cosine similarity top3:

1 : ('luis-cammy', 0.1493063896739445)
2 : ('ex-albio', 0.10748393246581667)
3 : ('lize-helesta', 0.10699566242140947)

BoW cosine similarity top3:

1 : ('luis-cammy', 0.3547874375934496)
2 : ('Kakeru-Yumeoi', 0.27735009811261463)
3 : ('ex-albio', 0.27456258919345766)

VTuber : 「Sayo-Amemori」

tf-idf cosine similarity top3:

1 : ('Keisuke-Maimoto', 0.1922834946018738)
2 : ('Riri-Yuhi', 0.10628472515017232)
3 : ('miyako-seto', 0.08096941927796891)

BoW cosine similarity top3:

1 : ('Keisuke-Maimoto', 0.24253562503633297)
2 : ('naru-naruse', 0.2)
3 : ('Riri-Yuhi', 0.1835325870964494)

VTuber : 「manami-aizono」

tf-idf cosine similarity top3:

1 : ('kai-mayuzumi', 0.16029599132375658)
2 : ('fuyuki-hakase', 0.14004378845078083)
3 : ('Saku-Sasaki', 0.1263920957928006)

BoW cosine similarity top3:

1 : ('nui-sociere', 0.34299717028501764)
2 : ('fuyuki-hakase', 0.33384893044479436)
3 : ('kai-mayuzumi', 0.32539568672798425)

VTuber : 「Shiba-Kuroi」

tf-idf cosine similarity top3:

1 : ('Ryushen', 0.11927203601523553)
2 : ('Riri-Yuhi', 0.09168489255144392)
3 : ('fuyuki-hakase', 0.08438569467466962)

BoW cosine similarity top3:

1 : ('Ryushen', 0.35355339059327373)
2 : ('mashiro', 0.2529822128134704)
3 : ('Utako-Suzuka', 0.23094010767585035)

VTuber : 「youko-akabane」

tf-idf cosine similarity top3:

1 : ('Gilzaren-%E2%85%A2', 0.2090393081567328)
2 : ('miyako-seto', 0.10158896559883271)
3 : ('Mugi-Ienaga', 0.09419629117266703)

BoW cosine similarity top3:

1 : ('Gilzaren-%E2%85%A2', 0.2727272727272727)
2 : ('Yuika-Shiina', 0.21320071635561041)
3 : ('Toya-Kenmochi', 0.21320071635561041)

VTuber : 「marin-hayama」

tf-idf cosine similarity top3:

1 : ('rine-yaguruma', 0.09583649086605736)
2 : ('Roa-Yuzuki', 0.08668126334627008)
3 : ('Kou-Uduki', 0.08204127081774573)

BoW cosine similarity top3:

1 : ('ibrahim', 0.2201927530252721)
2 : ('ex-albio', 0.21908902300206642)
3 : ('sou-hayase', 0.21081851067789198)

VTuber : 「kokoro-amamiya」

tf-idf cosine similarity top3:

1 : ('gwelu-os-gar', 0.06964118420280196)
2 : ('natsume-kurusu', 0.05854618292485827)
3 : ('mahiro-yukishiro', 0.04029356491612032)

BoW cosine similarity top3:

1 : ('gwelu-os-gar', 0.15554275420956382)
2 : ('Toya-Kenmochi', 0.1270001270001905)
3 : ('nui-sociere', 0.1270001270001905)

VTuber : 「ratna-petit」

tf-idf cosine similarity top3:

1 : ('kana-sukoya', 0.3184356725689355)
2 : ('himawari-honma', 0.15021812582827598)
3 : ('Saku-Sasaki', 0.12262335780911959)

BoW cosine similarity top3:

1 : ('kana-sukoya', 0.3872983346207416)
2 : ('nui-sociere', 0.2651650429449553)
3 : ('mao-matsukai', 0.25)

VTuber : 「mashiro」

tf-idf cosine similarity top3:

1 : ('Ryushen', 0.12621285767522733)
2 : ('sou-hayase', 0.08562268438573312)
3 : ('fuyuki-hakase', 0.08307428304645542)

BoW cosine similarity top3:

1 : ('Ryushen', 0.4472135954999579)
2 : ('sou-hayase', 0.3651483716701108)
3 : ('Toya-Kenmochi', 0.33541019662496846)

VTuber : 「sou-hayase」

tf-idf cosine similarity top3:

1 : ('naru-naruse', 0.12318250049950147)
2 : ('Ryushen', 0.11607946421926563)
3 : ('Toya-Kenmochi', 0.09558866073004646)

BoW cosine similarity top3:

1 : ('Ryushen', 0.408248290463863)
2 : ('Toya-Kenmochi', 0.408248290463863)
3 : ('fumi', 0.3849001794597505)

VTuber : 「minato-fuwa」

tf-idf cosine similarity top3:

1 : ('mao-matsukai', 0.03215177701379301)
2 : ('Tsumugu-Kataribe', 0.03215177701379301)
3 : ('Ryushen', 0.024803632914579037)

BoW cosine similarity top3:

1 : ('mao-matsukai', 0.30151134457776363)
2 : ('Tsumugu-Kataribe', 0.30151134457776363)
3 : ('rine-yaguruma', 0.2279211529192759)

VTuber : 「eli-conifer」

tf-idf cosine similarity top3:

1 : ('Rin-Shizuka', 0.1789378421635141)
2 : ('naraka', 0.1736978872633936)
3 : ('Utako-Suzuka', 0.10654114120932032)

BoW cosine similarity top3:

1 : ('Rin-Shizuka', 0.32539568672798425)
2 : ('naraka', 0.3131121455425747)
3 : ('Ryushen', 0.25724787771376323)

VTuber : 「chima-machita」

tf-idf cosine similarity top3:

1 : ('Sister-Claire', 0.14712426767331005)
2 : ('Rin-Shizuka', 0.1203060612792079)
3 : ('Shoichi-Kanda', 0.09755140437185304)

BoW cosine similarity top3:

1 : ('Sister-Claire', 0.32338083338177726)
2 : ('luis-cammy', 0.29250896965085227)
3 : ('Kakeru-Yumeoi', 0.2858309752375148)

VTuber : 「Kasumi-Izumo」

tf-idf cosine similarity top3:

1 : ('Keisuke-Maimoto', 0.07850988402861986)
2 : ('Riri-Yuhi', 0.06992187833404935)
3 : ('Kakeru-Yumeoi', 0.06048677832861183)

BoW cosine similarity top3:

1 : ('Riri-Yuhi', 0.2884299752006152)
2 : ('Kakeru-Yumeoi', 0.254000254000381)
3 : ('nui-sociere', 0.254000254000381)

VTuber : 「tamaki-fumino」

tf-idf cosine similarity top3:

1 : ('Saku-Sasaki', 0.12767877746353307)
2 : ('Sister-Claire', 0.12295981158893728)
3 : ('Elu', 0.0650779587522142)

BoW cosine similarity top3:

1 : ('Saku-Sasaki', 0.1666666666666667)
2 : ('Sister-Claire', 0.09622504486493763)
3 : ('himawari-honma', 0.08703882797784893)

VTuber : 「tomoe-shirayuki」

tf-idf cosine similarity top3:

1 : ('Mikoto-Rindou', 0.16748916569120262)
2 : ('naru-naruse', 0.12731341573595925)
3 : ('lize-helesta', 0.10927378272660826)

BoW cosine similarity top3:

1 : ('fumi', 0.3823595564509362)
2 : ('naru-naruse', 0.3441236008058426)
3 : ('Ryushen', 0.32444284226152503)

VTuber : 「mao-matsukai」

tf-idf cosine similarity top3:

1 : ('Tsumugu-Kataribe', 0.06641916645948658)
2 : ('Ryushen', 0.051239364550415986)
3 : ('Toya-Kenmochi', 0.04902789402522886)

BoW cosine similarity top3:

1 : ('Tsumugu-Kataribe', 0.5)
2 : ('rine-yaguruma', 0.3779644730092272)
3 : ('Yuika-Shiina', 0.35355339059327373)

VTuber : 「fumi」

tf-idf cosine similarity top3:

1 : ('naru-naruse', 0.2327847818426722)
2 : ('kana-sukoya', 0.15295311769810088)
3 : ('naraka', 0.13951851291499584)

BoW cosine similarity top3:

1 : ('naru-naruse', 0.5)
2 : ('Ryushen', 0.4714045207910316)
3 : ('Toya-Kenmochi', 0.4714045207910316)

VTuber : 「Gaku-Fushimi」

tf-idf cosine similarity top3:

1 : ('Meiji-Warabeda', 0.10720935981211589)
2 : ('Shoichi-Kanda', 0.10168318056360276)
3 : ('miyako-seto', 0.05141273611757202)

BoW cosine similarity top3:

1 : ('Shoichi-Kanda', 0.2668802563418119)
2 : ('Meiji-Warabeda', 0.2567762955065478)
3 : ('Ryushen', 0.22645540682891913)

VTuber : 「levi-elipha」

tf-idf cosine similarity top3:

1 : ('dola', 0.26544369769810394)
2 : ('fumi', 0.09818303317275018)
3 : ('natsume-kurusu', 0.07094180983999403)

BoW cosine similarity top3:

1 : ('fumi', 0.32686022523030667)
2 : ('dola', 0.29565619799454135)
3 : ('Ryushen', 0.2773500981126146)

VTuber : 「haruka-onomachi」

tf-idf cosine similarity top3:

1 : ('Shoichi-Kanda', 0.15679433040852242)
2 : ('Aki-Suzuya', 0.1286552710983448)
3 : ('naru-naruse', 0.11786451295402876)

BoW cosine similarity top3:

1 : ('Shoichi-Kanda', 0.40201512610368484)
2 : ('fumi', 0.40201512610368484)
3 : ('Aki-Suzuya', 0.3547874375934496)

VTuber : 「mahiro-yukishiro」

tf-idf cosine similarity top3:

1 : ('Meiji-Warabeda', 0.1277625232834151)
2 : ('miyako-seto', 0.11164258637282853)
3 : ('ars-almal', 0.093797852749084)

BoW cosine similarity top3:

1 : ('Meiji-Warabeda', 0.3086066999241838)
2 : ('miyako-seto', 0.27777777777777785)
3 : ('fumi', 0.25660011963983365)

VTuber : 「Masaru-Suzuki」

tf-idf cosine similarity top3:

1 : ('Shoichi-Kanda', 0.13838699494738935)
2 : ('haruka-onomachi', 0.10746358391095337)
3 : ('Rion-Takamiya', 0.06792546890123505)

BoW cosine similarity top3:

1 : ('Shoichi-Kanda', 0.3849001794597505)
2 : ('haruka-onomachi', 0.3481553119113957)
3 : ('Ryushen', 0.30618621784789724)

VTuber : 「luis-cammy」

tf-idf cosine similarity top3:

1 : ('ex-albio', 0.20024914363147664)
2 : ('Kakeru-Yumeoi', 0.18191903560598488)
3 : ('shellin-burgundy', 0.1493063896739445)

BoW cosine similarity top3:

1 : ('Kakeru-Yumeoi', 0.4264014327112209)
2 : ('ex-albio', 0.4221158824088691)
3 : ('Riri-Yuhi', 0.4150286783196448)

VTuber : 「kyoko-todoroki」

tf-idf cosine similarity top3:

1 : ('uiha-aiba', 0.11302981229216451)
2 : ('naru-naruse', 0.1022499316682435)
3 : ('Chihiro-Yuki', 0.093642515998898)

BoW cosine similarity top3:

1 : ('Ryushen', 0.3198010745334156)
2 : ('Sister-Claire', 0.30151134457776363)
3 : ('Ritsuki-Sakura', 0.30151134457776363)

VTuber : 「miyako-seto」

tf-idf cosine similarity top3:

1 : ('Alice-Mononobe', 0.20600855151248748)
2 : ('Meiji-Warabeda', 0.1942615357471656)
3 : ('ars-almal', 0.14055382852081544)

BoW cosine similarity top3:

1 : ('Meiji-Warabeda', 0.38575837490522985)
2 : ('karuta-yamagami', 0.3333333333333334)
3 : ('Ryushen', 0.30618621784789724)

VTuber : 「Aki-Suzuya」

tf-idf cosine similarity top3:

1 : ('Meiji-Warabeda', 0.175000599478831)
2 : ('haruka-onomachi', 0.1286552710983448)
3 : ('naru-naruse', 0.11395207866726498)

BoW cosine similarity top3:

1 : ('Meiji-Warabeda', 0.41931393468876743)
2 : ('fumi', 0.392232270276368)
3 : ('haruka-onomachi', 0.3547874375934496)

VTuber : 「naraka」

tf-idf cosine similarity top3:

1 : ('eli-conifer', 0.1736978872633936)
2 : ('fumi', 0.13951851291499584)
3 : ('karuta-yamagami', 0.12362819482200968)

BoW cosine similarity top3:

1 : ('fumi', 0.4303314829119351)
2 : ('Ryushen', 0.36514837167011066)
3 : ('air-harusaki', 0.35805743701971643)

VTuber : 「Gilzaren-%E2%85%A2」

tf-idf cosine similarity top3:

1 : ('youko-akabane', 0.2090393081567328)
2 : ('luis-cammy', 0.0962062520234527)
3 : ('Kakeru-Yumeoi', 0.07029141906543084)

BoW cosine similarity top3:

1 : ('mao-matsukai', 0.30151134457776363)
2 : ('Tsumugu-Kataribe', 0.30151134457776363)
3 : ('youko-akabane', 0.2727272727272727)

VTuber : 「Hajime-Shibuya」

tf-idf cosine similarity top3:

1 : ('Shoichi-Kanda', 0.2802285863829056)
2 : ('Rin-Shizuka', 0.15898035770727326)
3 : ('Sister-Claire', 0.1257621641544699)

BoW cosine similarity top3:

1 : ('Shoichi-Kanda', 0.40201512610368484)
2 : ('Rin-Shizuka', 0.3370999312316211)
3 : ('Toya-Kenmochi', 0.3198010745334156)

VTuber : 「Chinami-Achikita」

tf-idf cosine similarity top3:

1 : ('Shoichi-Kanda', 0.09075882284608276)
2 : ('haruka-onomachi', 0.07047821493838544)
3 : ('Toya-Kenmochi', 0.06768265301763761)

BoW cosine similarity top3:

1 : ('Kou-Uduki', 0.11952286093343936)
2 : ('Yuika-Shiina', 0.11180339887498948)
3 : ('Toya-Kenmochi', 0.11180339887498948)

VTuber : 「Hina-Asuka」

tf-idf cosine similarity top3:

1 : ('ibrahim', 0.1252369098601872)
2 : ('fuyuki-hakase', 0.12006119521063455)
3 : ('uiha-aiba', 0.11606133501681212)

BoW cosine similarity top3:

1 : ('fuyuki-hakase', 0.3149448894660933)
2 : ('ibrahim', 0.29565619799454135)
3 : ('uiha-aiba', 0.29417420270727607)

VTuber : 「furen-e-lustario」

tf-idf cosine similarity top3:

1 : ('joe-rikiichi', 0.15773811152873637)
2 : ('mao-matsukai', 0.03440637175215351)
3 : ('Tsumugu-Kataribe', 0.03440637175215351)

BoW cosine similarity top3:

1 : ('mao-matsukai', 0.31622776601683794)
2 : ('Tsumugu-Kataribe', 0.31622776601683794)
3 : ('rine-yaguruma', 0.23904572186687872)

VTuber : 「gwelu-os-gar」

tf-idf cosine similarity top3:

1 : ('Elu', 0.14543875260913178)
2 : ('moira', 0.07449860367298686)
3 : ('kokoro-amamiya', 0.06964118420280196)

BoW cosine similarity top3:

1 : ('Toya-Kenmochi', 0.30618621784789724)
2 : ('nui-sociere', 0.30618621784789724)
3 : ('melissa-kinrenka', 0.30618621784789724)

VTuber : 「rine-yaguruma」

tf-idf cosine similarity top3:

1 : ('fumi', 0.1333647371721831)
2 : ('marin-hayama', 0.09583649086605736)
3 : ('kana-sukoya', 0.08755590060881863)

BoW cosine similarity top3:

1 : ('mao-matsukai', 0.3779644730092272)
2 : ('fumi', 0.3779644730092272)
3 : ('Tsumugu-Kataribe', 0.3779644730092272)

VTuber : 「karuta-yamagami」

tf-idf cosine similarity top3:

1 : ('belmond-banderas', 0.1370127385189618)
2 : ('naraka', 0.12362819482200968)
3 : ('miyako-seto', 0.10355524347682078)

BoW cosine similarity top3:

1 : ('miyako-seto', 0.3333333333333334)
2 : ('Ryushen', 0.30618621784789724)
3 : ('naraka', 0.29814239699997197)

VTuber : 「Momo-Aduchi」

tf-idf cosine similarity top3:

1 : ('mito-tsukino', 0.0)
2 : ('himawari-honma', 0.0)
3 : ('Saku-Sasaki', 0.0)

BoW cosine similarity top3:

1 : ('mito-tsukino', 0.0)
2 : ('himawari-honma', 0.0)
3 : ('Saku-Sasaki', 0.0)

VTuber : 「natsume-kurusu」

tf-idf cosine similarity top3:

1 : ('naru-naruse', 0.13299614524788933)
2 : ('Sister-Claire', 0.11395926717998889)
3 : ('Rin-Shizuka', 0.10310046848978542)

BoW cosine similarity top3:

1 : ('Sister-Claire', 0.3823595564509362)
2 : ('fumi', 0.3823595564509362)
3 : ('naru-naruse', 0.3441236008058426)

VTuber : 「melissa-kinrenka」

tf-idf cosine similarity top3:

1 : ('nui-sociere', 0.20810867791812573)
2 : ('belmond-banderas', 0.16502555864717172)
3 : ('rena-yorumi', 0.10988565355913985)

BoW cosine similarity top3:

1 : ('nui-sociere', 0.4999999999999999)
2 : ('Toya-Kenmochi', 0.3749999999999999)
3 : ('belmond-banderas', 0.35355339059327373)

VTuber : 「ibrahim」

tf-idf cosine similarity top3:

1 : ('Hina-Asuka', 0.1252369098601872)
2 : ('Elu', 0.12499465150412017)
3 : ('Kou-Uduki', 0.08247015738010177)

BoW cosine similarity top3:

1 : ('Ryushen', 0.3198010745334156)
2 : ('mao-matsukai', 0.30151134457776363)
3 : ('Tsumugu-Kataribe', 0.30151134457776363)

VTuber : 「air-harusaki」

tf-idf cosine similarity top3:

1 : ('Saku-Sasaki', 0.18929436660578178)
2 : ('naraka', 0.11449006409224854)
3 : ('naru-naruse', 0.10222379506554138)

BoW cosine similarity top3:

1 : ('Ryushen', 0.39223227027636803)
2 : ('Sister-Claire', 0.3698001308168194)
3 : ('Ritsuki-Sakura', 0.3698001308168194)

VTuber : 「Tsumugu-Kataribe」

tf-idf cosine similarity top3:

1 : ('mao-matsukai', 0.06641916645948658)
2 : ('Ryushen', 0.051239364550415986)
3 : ('Toya-Kenmochi', 0.04902789402522886)

BoW cosine similarity top3:

1 : ('mao-matsukai', 0.5)
2 : ('rine-yaguruma', 0.3779644730092272)
3 : ('Yuika-Shiina', 0.35355339059327373)

VTuber : 「naru-naruse」

tf-idf cosine similarity top3:

1 : ('emma-august', 0.38816715075307634)
2 : ('Utako-Suzuka', 0.25574094083779864)
3 : ('fumi', 0.2327847818426722)

BoW cosine similarity top3:

1 : ('emma-august', 0.5303300858899106)
2 : ('fumi', 0.5)
3 : ('Meiji-Warabeda', 0.4008918628686366)

結果を受けて

全体を見ての考察はにじさんじに対する知見の少なさからあまり言えないですが,当たり前ながらTF-IDFとBoWでは異なる結果が得られました.

自己紹介部分に「にじさんじ」とか「VTuber」,「ライバー」あたりの単語があるかで変わってきている印象を受けます.

また,cos類似度が0のユーザ(類似ライバーがいない)が何人かいたので紹介します.

  • Momo-Aduchi(あるいはLOVEでいっぱいの海 #ももちゃんあーと #ももほうそう / 問合わせ先 → URL)
  • Mirei-Gundo(46歳独身男システムエンジニアです。 #教えて郡道先生 #3年0組黒板新聞 #みれいどんどんクズになる #こえこえ郡道)
  • kanae(こんにちは。)
  • Mikoto-Rindou(鬼の女王 竜胆 尊じゃ、どうぞよしなに。)[1位以外0]

懸念していた通り,文章量が少ないので類似推薦は難しいという裏付けデータですね.

かなり自己紹介部分が攻めているもしくは単語数が恐ろしいほど少ないためにcos類似度0が起きています.

語彙数も700程度と少ないのも全体の結果において影響があるでしょう.

あと使えるデータは何があるだろう.ツイートデータは収集が面倒なうえ,RTデータが必要ないので躊躇うし…

以前やった手法も大変ですし.

何か良いデータ等ありましたら是非教えてほしいです.

スポンサーリンク

参考

ABOUT ME
しまさん
高専→大学編入→大学院→? / 計算社会科学,ウェブマイニングなど / グレープフルーツと本が好き / SNS(Twitter,YouTube,Twitch)やVTuberのデータ分析屋 詳しいプロフィールはこちら≫ 投げ銭はコチラ