作ったものを振り返る Part1.3
概略
今回はスクレイピング処理について振り返ります。
目標
ここでの目標はhtmlファイルであるソースから必要な情報を切り出して、利用しやすいように情報を保存することです。
スクレイピング
前回 まででスクレイピング対象サイトのソースまで取得までしていました。そのソースに対してスクレイピング処理をしていきます。
ツール
今回は使い慣れたBeautifulSoup を使いました。
流れ
- スクレイピングしたい情報である日付・時間・状態についての生成規則がないかを調べる
- classやidに生成規則があることを発見
- classやidを指定してsoup.find -> 検索結果が(タグも一緒に)返ってくる
- 検索結果のテキストだけを取得する
- 次に利用しやすいように変数などに保存
生成規則について
図1. から
- 日付 : "Head" class内にある
- 時間 : 始まりのidから+1ずつ増えていく
- 状態 : 時間のidでsoup.findした時に返ってくるタグ付きの検索結果のclass名を見ればわかる
と、それぞれの規則があることがわかります。
[caption id="attachment_150" align="alignnone" width="688"] 図1. 生成規則[/caption]
あとはこれをプログラムにしてやれば全ての日付・時間・状態を取得することができます!
次回は、ここで作った整形済みの予約リストを使ってデータベースの操作を行います。
では。