Tag Archeve for the ‘Scraping’ Category
Monday, November 23rd, 2020
Seleniumを用いて、アマゾンサイトの商品検索サイトで書名検索する際に出力される書籍の表紙画面のURLを取り出してみた。
書名を入力とし、表紙画面を出力する node module getImage()を作成したので、テストのサンプル(test.jsと実行結果)、moduleを定義しているamazon_search.jsのソースをアップしておいた。
なお、アップしたソース、並びにその使用については本サイトは責任を負わないので念のため。
(続きを読む)
Posted in IT(情報処理) | No Comments »
Friday, September 25th, 2020
Web上の公開情報からデータを抽出するのに正規表現は必須だ。
基本的な正規表現のうち、良く使いそうなものをテーブルにまとめておくことにした。
なお、このテーブル、個人的な使用を念頭に作成しているので、正確さは保証のかぎりではないことに注意。
(続きを読む)
Posted in IT(情報処理) | No Comments »
Saturday, September 5th, 2020
Web上に公開されている情報を「自動的に」収集するツールとして、Selenium が有効なのではと考え、いろいろ調べていた。
Seleniumを用いたChromeブラウザのコントロールが、それなりに安定して実行できるようになったので、作業メモを残しておいた。
なお、一連のテストはjupyter lab上で行った。
(続きを読む)
Posted in IT(情報処理) | No Comments »
Saturday, January 28th, 2017
JavaScriptを基本から学習することにし,いろいろ試しているところ。習うより慣れろということで具体的にプログラミングすることにした。
手始めに、表題の「node.js によるWebページの読み込みと情報の抽出」を例としてトレーニング、具体的には、日経電子版速報のページを読み込み、これからニュースのタイトルを抽出するプログラムを書いてみた。
個人的なメモとして作成したJavaScriptのソースをmemoしておいた。 (続きを読む)
Posted in IT(情報処理) | No Comments »