Tag Archeve for the ‘Webスクレイピング’ Category



  • [1]
  • 2
  • 3
  • 4
  • 5

Webスクレイピング手法 preg_match vs. simple_html_dom

Monday, March 14th, 2016

公開Webから情報を抽出するWebスクレイピングについてさまざま議論されている。このブログサイトでも、Yahoo Financeから為替とか株価データを抽出する方法を試してきた。そこでは、php関数 preg_match_all()を用いた正規表現マッチによる。正規表現マッチ以外にも、DOM解析による方法などがあるようだ。

ここでは、日経電子版のフロントページ(http://www.nikkei.com/)に掲載される主な市場指標から表示値の取得をターゲットとし、preg_match_all.phpとDOM解析を基本とするsimple_html_dom.phpの二つのツールを用いてスクレイピング法を比較してみた。

結論めいたことを言うと、原始的で泥臭い手法ではあるが、私にとっては、正規表現マッチによる方法が小回りが利いて良さそうだ。 (続きを読む)



  • [1]
  • 2
  • 3
  • 4
  • 5