Webサイトを保存する
背景
ウェブサイトの寿命は長くて20年。短いと数年。15年先はわからないが、数年程度で参照できなくて困るので保存したい
2021/3/31 Scrapboxを数年使ってきて、過去の記事を読み返したときに、参照している記事が消えることがもう何回もあった
知識の液状化のためにも必要
デジタル化している大手新聞社やIT mediaなど大手メディア以外の記事はすべていつ消えてもおかしくない
大手新聞社は有償でアーカイブを提供しているので消える可能性が低い
個人が自分の意志で書いた記事は明日残っているかも怪しい
要件
MUST
画像・文章・スタイルの保存
ページレイアウトはできるだけそのまま
個別のURLが取得できる
Scrapboxから参照したい
SHOULD
検索できる
重要な部分はScrapboxに引用する(さもなくばゴミ屋敷化する)ので重要度は低い
溜め込むと検索できないと死亡
そもそも溜め込んではいけない
2021/10/9の結論
Save Page PE + Gyazoを使う
くうかん!!!ー!!!!
背景
PageDash(サービス終了)がサービス終了になった
考察
「すぐにアクセスできる」というのが非常に重要ということがわかった
PDFにして保存したって場所がわからないし、検索も結構大変(Google driveはPDF中の文字を検索できるが、できないものもあり仕様がよくわからない)
「URLがある」というのは問題ではなく、すぐに・いつでもアクセスできるかが重要
URLはすぐに・いつでもアクセスするという目的を実現するのに適したインタフェース
どうするか?
1. Save Page PEで保存→Google Driveにアップ→URLを生成してScrapboxにリンクを貼る
アップしたらURLをコピーするところまでは自動化しないとやっていられない
2. (採用)Save Page PEで保存→Google Driveにアップ→Gyazoでスクショ
1に比べてURLをコピーする手間がない
Gyazoであとから検索できる
クラウドに置いたPDFをGyazoればその文書を検索できる
/villagepump/Google PhotosではなくGyazoを使う理由#60a2feb879e1130000aac12f
2021/3/31の結論
有償:PageDash(サービス終了)が一番良くできていた
無償:ちょっと手間がかかってもいいならSave Page PEで十分
table:比較表
サービス名 dynamic static 月額 検索 欠点
PageDash(サービス終了) ◎ ◎ $2.4 △(英語?) 読み込んでいない画像が保存されないことがある
Save Page PE ◎ ◎ 0 自分で工夫 ローカル保存。読み込んでいない画像は保存されない
Evernote Web Clipper o o 600 △ clipのためだけに使うには高価
Notion Web Clipper △ △ 0(~?GB) △?
Instapaper △ △ $2.5 △(英語?)
OneNote △ x 0(~5GB) △?
Pocket xx △ $3.7 タイトルのみ 本文が保存されない場合がある
Web魚拓 ◎ ◎ 0/315 なし 無料版は全員に公開。有償版は公開不可。クローラー形式
Weyback Machine o ◎ 0 なし クローラー形式
AcrobatでPDFに保存 x あり 元の画像が維持されない
dynamic: JSで動的に色々やってそうなページ
https://scrapbox.io/motoso/
twitterの画像ツイート
static: シンプルなHTML/CSSで構成されていそうなページ
https://www.asahi.com/
xx:役に立たない
x:文章は取れるが、画像が取れない
△: 画像と文章が取れるが、レイアウトはメチャクチャ
https://gyazo.com/49cfa2706f964accf345c6ed3a5932f9
o: レイアウトに一部問題あり
https://gyazo.com/c4454f521a224897912e7d479388be39
◎:レイアウトも完璧
https://gyazo.com/44e10d71e3adc1f1a0a8570be60061ed
その他の方法
Gyazoでキャプチャ
リンクが飛べない
長いページで400エラーになる
例:https://www.cc.kyoto-su.ac.jp/~suga/hanrei/29-3.html
WebをPDFにしてOCRはこの下位互換
Save Page PEを使えば1つのhtmlにまとめてくれる
「Webページまるごとダウンロードして保存」の上位互換
保存先がローカルだとデータ消失やURLが作れないのでGoogle Driveに保存
Google DriveはHTMLファイルのプレビューができない
Google driveはGoogleドキュメントエディタ形式に変換すれば(アップロード時に自動変換)、中身を検索できる
HTMLのままでは検索できない
Dropbox
HTMLビュワーがついている
保存したHTMLをDropboxで開いたときの図
https://gyazo.com/a8d51f4ad71c0da89746f720b04d50b7
全文検索ができない
Dropbox でファイルのコンテンツを検索する | Dropbox ヘルプ
thx Misoni氏
https://twitter.com/misonln41/status/1377079473137278984
Evernote
https://gyazo.com/7c1569ff3d477d39d50cc5618db986b4
ページ全体にすると
https://gyazo.com/c4454f521a224897912e7d479388be39
ちょっと変だけどまあヨシ
https://gyazo.com/13c57b24f5321de244516580c208beb1
広告がかぶっている
Wayback Machine
Web魚拓
https://megalodon.jp/2021-0331-0524-44/https://scrapbox.io:443/motoso/
https://megalodon.jp/2021-0331-0556-32/https://www.asahi.com:443/
プライベート版
https://megalodon.jp/pc/user/introduction
OneNote Web clipper
https://chrome.google.com/webstore/detail/onenote-web-clipper/gojbdfnpnhogfdgjbigejoaolejmgdhk
OneNoteに保存される
おそらくOneDriveに入るので、無料だと5GBまで
https://www.microsoft.com/ja-jp/microsoft-365/onedrive/compare-onedrive-plans
プレビュー
4種類ある
ページ全体
これが新聞記事のようなstaticなページでもうまく働かない(どのページでもうまく動かない)
https://gyazo.com/881fd689627d16a005c6340d4eeb440d
領域
記事
ブックマーク
試す
https://gyazo.com/f9c518a313300077d0c7f60a6d098cdb
記事で保存するとこうなる
Scrapboxはキャプチャできなかった
PageDash(サービス終了)
Pocket
https://getpocket.com/premium
https://support.mozilla.org/ja/kb/what-pocket
https://www.qnap.com/ja-jp/how-to/tutorial/article/notes-station-3-web-clipper-チュートリアル
UIがOneNoteっぽい
Notion Web Clipper
https://gyazo.com/8dad41cb2806052e8d51deaa670e4d26
https://chrome.google.com/webstore/detail/notion-web-clipper/knheggckgoiihginacbkhaalnibhilkk/related?hl=ja
Scrapboxは全然ちゃんとできない
staticなページは行ける
参考
Evernoteだけじゃない、Webページをクリップしておけるサービス4選 | マイナビニュース
Webクリップの戸惑い – R-style