wget
wget とはUNIX 上で使えるダウンロード支援ツールであり、起点としたURL から再帰的にhtml データを検索し収集するロボットプログラムである。
wget の特徴
wget に限らず、多くのダウンロード支援ツールの共通の機能として
http:// で指定されるファイル、およびディレクトリを取得できる
ftp://で指定されるファイル、およびディレクトリを取得できる
html データに関しては、リンク先を調査し再帰的に内容の取得をすることができる
ftp:// の指定がディレクトリの場合には、それを解析し、さらに、ディレクトリ、ファイルを取得できる http, ftp ともに、proxy を指定することができるこれにより、firewall を越えることが可能となる
.wgetrc に設定を書き込むことでデフォルトの値を変更して命令を簡略化できる
wget の主なオプション
-h --help
簡単なヘルプの表示
-nc --no-clobber
既に存在するファイルをダウンロードしない拡張子が.html や.htm のファイルはローカルディスクからURL を取得して残りをダウンロードする
-l depth --level=depth
再帰回収の最大の深さをdepth に指定するデフォルトの値は5
-r --recursive
再帰的に回収を行う
-A --accept
指定したファイルだけダウンロードする
-R --reject
指定したファイル以外をダウンロードする