Tag Archeve for the ‘Scraping’ Category



  • [1]
  • 2
  • 3
  • 4
  • 5

Nodejs(JavaScript)上でSeleniumを動かす
Amazon サイトで書名検索し表紙画像URLを取り出してみた

Monday, November 23rd, 2020

Seleniumを用いて、アマゾンサイトの商品検索サイトで書名検索する際に出力される書籍の表紙画面のURLを取り出してみた。

書名を入力とし、表紙画面を出力する node module getImage()を作成したので、テストのサンプル(test.jsと実行結果)、moduleを定義しているamazon_search.jsのソースをアップしておいた。

なお、アップしたソース、並びにその使用については本サイトは責任を負わないので念のため。
(続きを読む)



基本的な正規表現でよく使いそうなものをメモ

Friday, September 25th, 2020

Web上の公開情報からデータを抽出するのに正規表現は必須だ。

基本的な正規表現のうち、良く使いそうなものをテーブルにまとめておくことにした。

なお、このテーブル、個人的な使用を念頭に作成しているので、正確さは保証のかぎりではないことに注意。
(続きを読む)



Nodejs(JavaScript)上でSeleniumを動かす
動作環境の構築からGoogle検索のsnapshotまで

Saturday, September 5th, 2020

Web上に公開されている情報を「自動的に」収集するツールとして、Selenium が有効なのではと考え、いろいろ調べていた。

Seleniumを用いたChromeブラウザのコントロールが、それなりに安定して実行できるようになったので、作業メモを残しておいた。

なお、一連のテストはjupyter lab上で行った。
(続きを読む)



node.jsによるWebページの読み込みと情報の抽出

Saturday, January 28th, 2017

JavaScriptを基本から学習することにし,いろいろ試しているところ。習うより慣れろということで具体的にプログラミングすることにした。

手始めに、表題の「node.js によるWebページの読み込みと情報の抽出」を例としてトレーニング、具体的には、日経電子版速報のページを読み込み、これからニュースのタイトルを抽出するプログラムを書いてみた。

個人的なメモとして作成したJavaScriptのソースをmemoしておいた。 (続きを読む)



  • [1]
  • 2
  • 3
  • 4
  • 5