Twitterから(ほぼ)リアルタイム辞書生成

2015-09-172016-11-11

この記事は最終更新日から1年以上が経過しています。

先日社内の勉強会にてインターネット上に公開されているデータの収集方法について取り上げたため、
ここでは少し深掘りしてTwitterストリーミングデータの活用例についてまとめたいと思います。

MeCabと辞書について

昨今、機械学習というキーワードとともにデータを様々な分野で活用する事が期待されていますが、日本語のテキストを学習データとする場合に形態素解析という技術を用いて品詞の判別を行う事があります。形態素解析エンジンはその中に日本語の辞書を持っていて、デフォルトの辞書以外にユーザ定義の辞書を作成し新しい言葉を追加することで利用用途に応じた自分だけの辞書を作成できます。
今回は最も有名と思われるオープンソースの形態素解析エンジン「MeCab」の辞書を拡張したいと思います。

Twitter StreamingAPI + RethinkDBについて

TwitterのStreamingAPIは直近のTweetを取得できるAPIで検索APIなどと異なりTweet取得件数/回数の制限がない代わりに複数接続することはできません。そのためアプリケーションからStreamingAPIで取得したTweet情報を利用したい場合は直接StreamingAPIを呼び出すのではなく一旦どこかに格納した方が利用しやすいです。

今回はほぼリアルタイムということでデータベースに「RethinkDB」を選択しました。
RethinkDBはMongoDBなどと同様のドキュメント志向DBでスキーマレスでお手軽に利用できるだけでなくWebの管理コンソールが付いていたりすぐ使い始められるのが特徴です。もう一つ特徴としてはDBクライアントに更新をプッシュする機能を持っている点で、この機能によりStreamingAPIから取得したTweetをDBクライアントがpollingすることなく取得/処理することができます。

使い方としてはStreamingAPIから取得したTweetをRethinkDBへそのままInsertするアプリを動かしつつ、
別のアプリRethinkDBから必要な情報だけを抽出して利用するという方法を取ることで綺麗に役割分担できます。
この時、Tweetを利用するアプリを追加してもStreamingAPIへの接続を追加する必要が無いのが嬉しい点です。