RubyでWebページからトピック一覧を取得してみよう。 Mechanize/nokogiri

RubyでWebページからトピック一覧を取得してみよう。 Mechanize/nokogiri

RubyでWebページからトピック一覧を取得してみよう。 Mechanize/nokogiri

RubyでWebページからトピック一覧を取得してみよう。 Mechanize/nokogiri への1件のコメント

Webページからトピック一覧を引っこ抜くテクニックです。一般的にはスクレイピングと言われるらしいですが、名前はさておき、適当なページからニューストピック一覧なんかを引っこ抜いてみましょう。
浅田真央残念!フリーで挽回できるかなぁ??

下準備

Rubyのgem nokogiriとmechanizeをインストールします。

取得対象とするページ

今回は朝日新聞さんのサイトからトピックを抜き取ってみます。赤く囲んだところがターゲットです。

mechanize-1

HTMLの構造を目視でチェック

トピック欄のHTMLの構造をチェックし、どんなCSSセレクターで一覧を引っこ抜くことができるかを確認します。今回の場合はクラスList/ListSideImage/ListHeadlineをもつULタグの下に存在する aタグの情報を抜けば良いというのがわかりました。
mechanize-2

Rubyのソース

test.rb とか 適当なファイル名で保存してください。

トピック一覧取得

さて、ソースを実行してみましょう!

めでたくトピック一覧の取得に成功しました。簡単ですね。


About the author:

1 Comment

  1. Mackenzie  - 2014年7月17日 - 4:28 PM
    返信 /

    Appreciate you sharing, great blog article.Much thanks again. Keep writing.

Leave a comment

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

Back to Top