これから scrapy, selenium, headless chrome を動かす
#wip 
middlewareのあたりがまだわかってないかも。。。
本を読むか。 #someday
手順
2017/7最新 RubyとSeleniumでHeadless chromeを動かす on Ubuntu/Linux - Qiita を見てinstal
参考になる
PythonでJavaScriptを使ったWebサイトをスクレイピングする - Qiita 
firefoxだけど、説明が親切 seleniumとscrapyの組み合わせの話
scrapyの middlewareを実装して、登録する話。
Headless chromeでSelenium使ってみた - Qiita
chrome + selenium
これで作ったインスタンス(driver)を、scrapyのmiddlewareの実装で使えばできそう???
GUIなしのlinuxでwebページのスクリーンショット作成
日本語のfontをいれとかないと。 >> sudo apt-get install fonts-ipafont-gothic
EDINETの例
https://takahiromiura.github.io/Selenium.html
あとは、コード書くだけだけど、2~3時間のまとまった時間があるとき #someday
方針変更
splashで clickもいけそうなので、splashでやるのがよさそう
Splash Scripts Reference — Splash 3.0 documentation
local button = splash:select('button'
headless chromeでもそれなりのspeedがでると思うが、、 (おそらく) splashのが処理が早そう。。正しく?js動かすのは、chromeだろうけど。
button:mouse_click()
参考:
scrapy-splashを使ってJavaScript利用ページを簡単スクレイピング - amacbee's blog
説明がはいっていて、単にコピペするより、納得感がある。
英語なら、ReadMeに書いてある。 https://github.com/scrapy-plugins/scrapy-splash
scrapy + splashで店舗の緯度経度情報を収集する① - Qiita
ケンタッキーの店舗の取得。
#scrapy #python #script