実は、マーケティングのブログなんです
このブログ、『IT&マーケティング』などと書きながら実際にはITに関することばかり書いてきました。これは、ずっとマーケティング側の仕事をやってきたために「業務としては苦手分野であるIT実務をスキルアップしたい」という動機でブログをやっているのが理由です。
とは言え、あまりにもマーケティングから離れっぱなしなのもまずいので、今日は敢えて技術的な内容をほとんど含まないことを書いてみようと思います。
きっかけは『りんな』
Google Colab Pro(plusでないほう)を契約したので「ぼちぼちNLP(自然言語処理のほう)でも始めるか」ということでネットを検索していたところ、出てきたのが『GPT-2』という言語モデルで構築された文章生成AI『りんな』。なんとColab Proでさくっと動いてしまうではありませんか。
さっそく自分の愚痴アカウントの10万件のツイートデータを食わせて動かしてみたりしましたが、
かわいくないおっさんが何をつぶやいても面白くない
ことを思い知った(泣)わけです。おっさん、コンテンツにならない。
ツイートデータはなんやかやで手に入るのですが……
俺のツイートがかわいくないなら、かわいい女子のツイートを食わせればいいじゃないか。そもそも元祖『りんな』は元女子高生AIなのだから、本来、女の子のツイートを大量に学習させてナンボです。
そこでツイートデータ収集に至るわけですが、ツイートデータそのものはなんやかやで手に入るものです。オトナの事情で具体的な手段には敢えて触れませんが、いま私の手元には2000アカウントくらいの若年層と思しきアカウントのツイートデータが保存されています。
しかし、この大量のツイートデータ、どれがかわいいのでしょうか❓🤔
『かわいい』の定義や判別はむずかしい
最初は『かわいい単語』の出現頻度などでツイッターアカウントの「かわいさ」を定量化しようかと思いましたが、すぐに『おじさん構文』のことを思い出して「ダメだ😨」と気づきました。
ツイートのかわいさは文章全体から醸し出されるものであって、かわいい単語や絵文字を多用するという安直な手段で『かわいい度』をアップすることは出来ず、むしろ「キモいツイート」になってしまうのです。
どうやら、異なるアプローチが必要なようです。
論文と同じ『アレ』を使えないか?
そこで思い出したのが、「Googleが初めてウェブページの価値を評価したとき、論文を引用数で評価する手法に習ってページの被リンク数を主な指標にした」という有名な逸話です。かわいいツイートをする女子力が高いアカウントには、きっとたくさんの下心に満ちた@コメントがついているに違いありません。
とは言え、大量に収集したツイッターアカウントへの@コメントをツイッターからさらに収集するのはさすがに気が引けます。そこで代替案として現在考えているのが、「ツイート数に対する@コメントの出現比率」です。これは「コミュ力が高いアカウントなら、受け取った@コメントに対して一定比率で返信をするだろう」という仮説に基づいています。
ただし、この方法は「一方的に@コメントを送りまくるネットナンパ男子」のアカウントも一緒に拾ってしまいそうな不安感があります。まだ集計スクリプトを組んではおりませんので、より良い方法があれば是非コメントかツイッターでご教示頂けると嬉しいです。