Quantcast
Channel: プログラム - プログラマでありたい
Viewing all articles
Browse latest Browse all 31

ヤフー「つぶやき感情分析」で、衆議院議員の人気度を見る

$
0
0

 ネットを見てると、面白いサービスが出ていました。

 ヤフー株式会社は12日、ソーシャルメディア上の投稿を検索できるYahoo!検索の「リアルタイム検索」において、「つぶやき感情分析」の正式版を公開した。

 つぶやき感情分析は、Twitter上の投稿を分析し、検索したキーワードについてユーザーがどのような感情を持っているかを、「ポジティブ」「ネガティブ」の割合でグラフ表示する機能。2013年9月にベータ版として提供を開始し、今回、正式版として公開した。

ヤフー「つぶやき感情分析」、Twitter上の感情を「ポジ/ネガ」で判定 -INTERNET Watch

 Twitterの情報をもとに、感情分析をするというサービスです。簡単にいうと、入力されたキーワードに対して、世間は好きか嫌いかを出すというサービスです。こういったことをやりたいなぁと思って、Twitterのデータを大量に収集したり、そのデータを分析したりしたことがあります。
 こういった感情分析があれば何が出来るのか、いろいろ妄想がはかどります。今回は旬なテーマとして、衆議院議員に対する世間の反応をみてみましょう。

「つぶやき感情分析」を使ってやったこと



 
  • 衆議院サイトの議員一覧から、全議員の名前を収集する
  • 議員一人一人に対して、Capybara+Seleniumを使って「つぶやき感情分析」をする
  • 結果を一覧化する

その結果は、次の通りです。

名前ポジティブ(%)ネガティブ(%)備考
逢沢一郎00 
青木愛357 
青柳陽一郎00 
青山周平610同名のオートレーサーがいる
赤枝恒雄00 
赤澤亮正00 
赤羽一嘉00 
あかま二郎00 
赤松広隆00 
赤嶺政賢00 
秋葉賢也00 
秋元司00 
秋本真利00 
浅尾慶一郎00 
安住淳00 
麻生太郎1014 
足立康史00 
穴見陽一00 
阿部寿一00 
安倍晋三022 
あべ俊子00 
阿部知子026 
甘利明032 
荒井聰00 
安藤裕00 
池田道孝-- 
池田佳隆00 
伊佐進一00 
井坂信彦00 
石井啓一00 
石川昭政00 
石崎徹00 
石関貴史00 
石田祝稔00 
石田真敏00 
石破茂028 
石原慎太郎349 
石原伸晃018 
石原宏高00 
泉原保二-- 
泉健太00 
井出庸生00 
伊藤信太郎00 
伊藤忠彦00 
伊藤達也00 
伊東信久00 
伊東良孝00 
伊藤渉00 
稲田朋美03 
稲津久00 
井野俊郎00 
井上信治00 
井上貴博00 
井上英孝00 
井上義久00 
井林辰憲00 
伊吹文明00 
今井雅人062 
今枝宗一郎00 
今津寛00 
今村洋史00 
今村雅弘00 
岩田和親00 
岩永裕貴00 
岩屋毅00 
上杉光弘00 
上田勇00 
上西小百合00 
うえの賢一郎-- 
上野ひろし00 
浮島智子00 
生方幸夫00 
浦野靖人00 
漆原良夫00 
江崎鐵磨-- 
江田憲司028 
江田康幸00 
枝野幸男317 
江渡聡徳00 
衛藤征士郎00 
江藤拓06 
遠藤敬00 
遠藤利明00 
大岡敏孝00 
大串博志00 
大串正樹00 
大口善徳00 
大久保三代00 
大熊利昭00 
大島敦00 
大島理森00 
太田昭宏00 
大塚高司00 
大塚拓00 
大西健介00 
大西英男00 
大野敬太郎00 
大畠章宏00 
大見正00 
岡田克也027 
岡本三成00 
小川淳也00 
奥野信亮00 
奥野総一郎00 
小熊慎司00 
小倉將信00 
小此木八郎00 
小里泰弘00 
小沢一郎133 
小沢鋭仁018 
小田原潔00 
越智隆雄00 
鬼木誠00 
小野寺五典310 
小渕優子340 

実装について



 チョロチョロっと書いたので、手抜きの極みです。Gistを貼り付けておくので、マサカリ歓迎です。

衆議院議員一覧から名前を抜き出して、ヤフー「つぶやき感情分析」で好悪を調べる

 実装に際して、名簿を集めるのは単一ページに対してNokogiriを使ってスクレイピングするだけなので苦労はなかったです。しかし、「つぶやき感情分析」の検索結果を取得するのが悩みどころです。結果を画像で表示していて、その画像はJavaScriptで取得して描画しているようです。ちょっとその辺りを解析するのが面倒くさかったので、Seleniumで画面キャプチャしてその結果を手で起こしました。ビバ手作業!!ちなみにNokogiriやSeleniumを使ってスクレイピングする方法は、Rubyによるクローラー開発技法に書いている模様ですw

感想



 取得対象者が少ないなぁと思ったら、取得ページが分割されていて"あ行"しか取っていませんでした。面倒くさいので、そのまま放置しています。今回は半自動でしたが、全て手作業でするより10倍くらいは早かったと思います。全部自動化とかすると逆に大変な場合もあるので、ケースバイケースで使い分けるのもありなのではないでしょうか?
 ちなみに結果を眺めてたのですが、「つぶやき感情分析」はネガティブに傾きすぎる傾向があります。政治絡みの単語そのものがネガティブな得点与えられているのかなと思います。今度、別分野で試してみます。(結果取得の部分も、暇見つけて自動化考えてみます。)
 また、あまり呟かれていない、阿部知子さんとか小沢鋭仁さんなどもネガティブな評価が高くなっています。恐らく苗字と名前でもそれぞれ評価をして、総合的に判断するといった処理をしているのではないでしょうか。(それで、何故評価が下がるかは、リストの前後をみてください)
 誤解のないように言っておくと、この呟きの評価と選挙の当落は全く相関はないと思います。マイナスの投票が出来ない分、より嫌われている方が存在感が大きさを示している可能性があります。ここで大事になるのは、一定の基準で毎日の推移が見えることによって、何らかの指標に使えるという可能性があるということです。

See Also:
RubyでWebスクレイピングの話をしてきました。第1回Webスクレイピング勉強会@東京
「第2回Webスクレイピング勉強会@東京」に参加&発表してきました
『Rubyによるクローラー開発技法』を書きました
Rubyによるクローラー開発技法の目次

参照:
Yahoo!検索(リアルタイム)
ヤフー「つぶやき感情分析」、Twitter上の感情を「ポジ/ネガ」で判定 -INTERNET Watch


Viewing all articles
Browse latest Browse all 31

Latest Images

Trending Articles





Latest Images