Webスクレイピング手法 preg_match vs. simple_html_dom
Monday, March 14th, 2016公開Webから情報を抽出するWebスクレイピングについてさまざま議論されている。このブログサイトでも、Yahoo Financeから為替とか株価データを抽出する方法を試してきた。そこでは、php関数 preg_match_all()を用いた正規表現マッチによる。正規表現マッチ以外にも、DOM解析による方法などがあるようだ。
ここでは、日経電子版のフロントページ(http://www.nikkei.com/)に掲載される主な市場指標から表示値の取得をターゲットとし、preg_match_all.phpとDOM解析を基本とするsimple_html_dom.phpの二つのツールを用いてスクレイピング法を比較してみた。
結論めいたことを言うと、原始的で泥臭い手法ではあるが、私にとっては、正規表現マッチによる方法が小回りが利いて良さそうだ。 (続きを読む)