厚いデータとリコメンデーション

本日もバイトでした。こいつ毎日バイトしてない？って思うじゃないですか。それ主婦パートの先輩にも言われました。主婦パートって完全にもうその仕事を生活の足しにしてる人ですよ。週5勤務で時給私の3/2くらいもらってますよ。かたや同職種内最低賃金学生バイト風情の私。どないなっとんねん。

ちなみに数えたら6月は15日出勤してました。

どないなっとんねん。6月は全部で30日やぞ。

まあ6月の出勤日数が異様に多いのにはちゃんとしたカラクリがあるんですが、詳しく書くと社外秘の漏洩になるのでやめておきます。俺はまだ死にたくない。

毎日バイトばっかりしてるのでネタがなくなってきました。教養のある人になりたいとか言いながら結局昨日は小説を読むでもなく、自分の過去記事を読んで気に入ったやつをツイートして人目に曝すオナニーしてました。卒論のデータ収集は1回につき数時間かかる上に2回に1回失敗するしあまり芳しくない。

そういえば昨日、自分の書いた偏差値2の短歌をまとめた記事をツイートしたらそれを見たサークル同期が自分と趣味が合うかもと言ってその子の好きな歌人や歌詞を薦めてくれました。前に江國香織さんの『すいかの匂い』を薦めてくれたのと同じ子です。今回のおすすめもまあばっちり好みドンピシャで、素直にすごいな～と思いました。ありがたい。自分の世界を発信し続けていると自分の好きそうなものをおすすめしてもらえる世界線に生きてます。私、そこそこ恵まれてません？

同じ好みを持った人の好んでいるものは高確率でその人も好むだろう、というのはちょっと考えればあたりまえ体操な話ですが、これをアルゴリズムでやってしまうのがリコメンデーションシステムですね。ちなみにCiNii Articlesで検索するとリコメンデーションシステムよりも推薦システムの方がヒット件数が多いです。推薦システムっていう訳語が日本のそれ系の業界のスタンダードなんでしょうね。私はどっちでもいいですけど、卒論でこれをテーマにしています。ツイッターから何やかんやデータを取ってきてリコメンデーションに活かせないかな！？みたいな、コードが書ければ小学生でもできそうなテーマです。サガミオリジナルよりも薄い。向こう側見えそう。

あまりアカデミックな方面に適性がないのでなんと思われようと卒業ができればいいです。

リコメンデーションシステムには二種類あって協調フィルタリングとコンテンツベースフィルタリングというものがあります。どういうことかというと協調フィルタリングはそれこそ「この商品とこの商品を買った人はこんなものも買っています」っていうやつ。コンテンツベースフィルタリングは名前からして予想がつくと思いますが、コンテンツの属性からコンテンツ同士の距離を出して「このコンテンツとこのコンテンツは似ているのでこれが好きな人はこれも好きでしょう」みたいなやつです。たぶん実際は組み合わせて利用されていることが多い。まあ詳しくはググってください。

両者の弱点はそれぞれ、協調フィルタリングはまだそのシステムを利用したことがない利用者に推薦ができない（その人の好みがわからないため）こと、コンテンツベースは属性値の出し方が難しいことだったかな。後者はちょっとあやふやです。多分間違ってますが許してください。私が卒論で扱うのは協調フィルタリングで、オーソドックスに2次元行列を作ってクラスタリングします。よっ王道～！

それで好みが似ている人を見つけるみたいな意味でツイッターを使うんですけど、自分がさっき書いたような「おすすめ」をされて思ったのは、こんなにピタッと自分の好みにはまって感動するような推薦て簡単に処理できるような薄いデータじゃ実現できないんじゃないかなあってことなんですよ。確かにAmazonでこんなもの欲しくないですか？って言われたら欲しいねってなるんですけど、正直あれ買ったことないんです。わあいいね、確かに欲しいかも～って思って終わり。当たらずとも遠からず、そしてこの場合「当たらず」ってところに問題がある。

私にお勧めしてくれた子みたいに、「前からrnxちゃんが好きって言ってたいろんなものとかrnxちゃんの短歌とかから自分と好みが合うんじゃないかと思ったんだけど」っていう推察をするのって、それに至るデータを集めるのって難しくないですか。人間そんなに分かりやすくないですよ。「合うんじゃないかと思ったんだけど」たって、必ずしも同じものを多く好んでたわけじゃない。同じようなものを好きなんだろうなと感じられたからあの推薦に至ったわけです。それって本当にアルゴリズムで再現できるのかな～。まあ完全に無理じゃあないと思うんですけど、一筋縄ではいかないですよね。

そういうこと考えると、「人工知能が人間の仕事を奪う」「人工知能が人間を支配する」とかありえんでしょってなる。たぶん、ちょっとでも人工知能的なものの片鱗を勉強した人なら同じことを思うんじゃないかなあ。

人工知能を人工知能たらしめるのは、生身の人間による実世界の精緻な観察とそれによる推論ですよ。人工知能ができるのは計算だけです。

コンピュータは未来永劫、中国語の部屋を出られないと思うんです。

私の人生の中でもっとも幸運だったと思うことの一つに、茂木健一郎さんと数十メートルの距離に接近したことがあります。1時間あまりの講演をリアルタイムで聞いたこともあります（残念ながらこちらはビデオ中継でしたが）。茂木さんの話はとても刺激的で、自分が大学で興味を持って学んできたことが未来に繋がっていく感じがビシビシして、全身に鳥肌を立たせながらひたすらにメモを取っていました。後から聞いたら周りの学生は「難しすぎてあまりピンとこなかった」と言っていた人が多かったので、私こういう方面にちょっとした適性や興味があるのかなあと思ったり思わなかったり。

一番心打たれた部分、そして茂木さんのあの時の話の本質の部分をちょっと書きます。

人工知能は人間よりも速く正確に判断ができる。でも判断の基準を決めることはできない。基準を決めるのはあくまでも人間。トロッコ問題の答えを人間が定めれば、人工知能はその評価軸に従っていくらでも大量のケースに対して処理を行うことができる。が、あくまでもトロッコ問題の答えを定めるのは人間。これから人間の仕事は評価軸を定めることになっていくし、今話を聞いている君たちがそれをリードしていくんです、そうでしょ？

だいたいこんな感じです。ちょっと泣きそうになった。評価軸を定める。帰り道、口の中で何度もその言葉を反芻しました。

今の私は多分にあの時の経験の影響を受けていると思います。果たして私は評価軸を定める人間になれるんでしょうか。社会に大きな影響を与えたいとまでは思わないけど、自分の評価軸くらいは自分で定められるようになるといいですね。技術も、環境も、所詮は道具でしかないのです。

そんなわけで私は自分の卒論がめちゃめちゃお遊びじゃんな～と思いながらしこしこデータ集めてます。そうは言っても、別に乗り気じゃないわけじゃないですよ。言葉は悪いけどウケがいいし、PythonやRと格闘した経験はこれからの仕事で絶対に役に立つので。

乗り気じゃないわけじゃないから、PythonとTwitterAPIには本気出してほしいんですけどね。なにぶんデータ量が大きいので、生まれたての赤ちゃんよりも繊細。謎の理由ですぐ止まる。（指摘される前に書いておきますが、情報工学科卒の先輩に手伝ってもらってちゃんとtry-exceptを入れています。このPythonは私よりも生きるのがうまいんです）

明日で6月も終わりですね。6月の幕開けは一年前に第一志望だった御社の二次面接でした。懐かしくて寂しくて雨と一緒に涙でも流しちゃいたいなって思いますが、そういえば祈られたからって泣いてないですね。今更泣くわけにもいかないし。

あれからもう1ヵ月なんて早いなあ。

私は私なりによく頑張ったと思います。それを他者がどう評価するかはまた別の話。就活も、バレエも、バイトも、人生全般において、私は頑張っている。評価するのは他者なので頑張るイコール褒められるにはなりません。時には評価されたかったらもうちょっと頑張ろうねみたいになることもあるし、それは受け入れるべきですが、まあ私は私で頑張った、ということで。

ちょっといきなり右手小指側が痛くなったのでやめます。

布団大好き！

日記や所感など

厚いデータとリコメンデーション