Warning: Use of undefined constant user_level - assumed 'user_level' (this will throw an Error in a future version of PHP) in /home/tra-izon/www/blog/wp-content/plugins/ultimate-google-analytics/ultimate_ga.php on line 524
たぶんどっかで書いたと思うけどもう一度。
以前「流行解析プログラム」のアイデアを考えていたことがありました。
どっかの誰かがすでにやっていそうなのですが、当時はプログラマの友人にも話して具体的に動いてみようとしていましたが、今は凍結。
このプログラムは3つの段階に分かれていて、「収集」「解析」「予測」ってところでしょうか。
今日職場からの帰り道で思い返していたら当時プロジェクトが止まった一因に友人との理解の違いというか認識の齟齬が生じていたのかな?という気もしてきました。違うかも知れませんが。
まずは「収集」
この段階では、過去に流行した、単語について時系列順にエントリー数の遷移やwiki等の変更の頻度、またドメインや地域ごとによる書き込み数の情報を集めていきます。
実際には収集した上で、「いつポストされたのか? 」「どこで(Web上の、あるいは物理的に)ポストされたのか? 」などのタグをつけていく必要があります。
一応Web上のドキュメントにはログやポスト日時の情報が含まれている事も多いのでそこら辺を参考にしながら集めては分類します。
第二段階は「解析」
集めて、分類されたデータを基に、共通するパターンを見出そう。というのがこの段階。
共通するパターンなので、いくつかの単語について収集して分類する必要があります。まあ、とりあえずヒットしたっぽいアニメで良いかなと考えていました。
プログラムは融通が利きにくそうな気がするので「ハルヒ」「涼宮ハルヒ」「晴レハレ愉快」「ハルヒダンス」「涼宮ハルヒの憂鬱」……など、幅のある検索ワードとかどうするのだろう?とか言う技術内容はよくわかりません。プログラマーじゃないので。
でも先生の「もしかして」は結構優秀なのでやって出来ないことではないかと。
ちなみに、私の最大の関心事は此処で「流行するものとブログなどのエントリー数の間に明確な相関関係があるかどうか」でした。できれば爆発的にはやる前に兆しをつかめる特徴があると良いな。という興味があり呼びかけたプロジェクトです。
第三段階は「予測」
これは第二段階で共通するパターンが見つかった場合、そのパターンとにた遷移をたどっているワードをweb上から探し出せば流行がつかめる。という感じです。
実際にそんなグラフがあるのかは解りませんが、ちょっとわくわくしませんか?