作ったものを振り返る Part1.3

概略

今回はスクレイピング処理について振り返ります。

目標

ここでの目標はhtmlファイルであるソースから必要な情報を切り出して、利用しやすいように情報を保存することです。

スクレイピング

前回 まででスクレイピング対象サイトのソースまで取得までしていました。そのソースに対してスクレイピング処理をしていきます。

ツール

今回は使い慣れたBeautifulSoup を使いました。

流れ

  1. スクレイピングしたい情報である日付・時間・状態についての生成規則がないかを調べる
  2. classやidに生成規則があることを発見
  3. classやidを指定してsoup.find -> 検索結果が(タグも一緒に)返ってくる
  4. 検索結果のテキストだけを取得する
  5. 次に利用しやすいように変数などに保存

生成規則について

図1. から

  • 日付 : "Head" class内にある
  • 時間 : 始まりのidから+1ずつ増えていく
  • 状態 : 時間のidでsoup.findした時に返ってくるタグ付きの検索結果のclass名を見ればわかる

と、それぞれの規則があることがわかります。

[caption id="attachment_150" align="alignnone" width="688"] 図1. 生成規則[/caption]

あとはこれをプログラムにしてやれば全ての日付・時間・状態を取得することができます!

次回は、ここで作った整形済みの予約リストを使ってデータベースの操作を行います。

では。