Webサイトを保存する
背景
2021/3/31 Scrapboxを数年使ってきて、過去の記事を読み返したときに、参照している記事が消えることがもう何回もあった
デジタル化している大手新聞社やIT mediaなど大手メディア以外の記事はすべていつ消えてもおかしくない
大手新聞社は有償でアーカイブを提供しているので消える可能性が低い
個人が自分の意志で書いた記事は明日残っているかも怪しい
要件
MUST
画像・文章・スタイルの保存
ページレイアウトはできるだけそのまま
個別のURLが取得できる
Scrapboxから参照したい
SHOULD
検索できる
重要な部分はScrapboxに引用する(さもなくばゴミ屋敷化する)ので重要度は低い 溜め込むと検索できないと死亡
そもそも溜め込んではいけない
2021/10/9の結論
くうかん!!!ー!!!!
背景
考察
「すぐにアクセスできる」というのが非常に重要ということがわかった
PDFにして保存したって場所がわからないし、検索も結構大変(Google driveはPDF中の文字を検索できるが、できないものもあり仕様がよくわからない)
「URLがある」というのは問題ではなく、すぐに・いつでもアクセスできるかが重要
URLはすぐに・いつでもアクセスするという目的を実現するのに適したインタフェース
どうするか?
アップしたらURLをコピーするところまでは自動化しないとやっていられない
1に比べてURLをコピーする手間がない
Gyazoであとから検索できる
クラウドに置いたPDFをGyazoればその文書を検索できる
2021/3/31の結論
table:比較表
サービス名 dynamic static 月額 検索 欠点
Evernote Web Clipper o o 600 △ clipのためだけに使うには高価
Notion Web Clipper △ △ 0(~?GB) △?
OneNote △ x 0(~5GB) △?
Pocket xx △ $3.7 タイトルのみ 本文が保存されない場合がある
Web魚拓 ◎ ◎ 0/315 なし 無料版は全員に公開。有償版は公開不可。クローラー形式 Weyback Machine o ◎ 0 なし クローラー形式
AcrobatでPDFに保存 x あり 元の画像が維持されない
dynamic: JSで動的に色々やってそうなページ
twitterの画像ツイート
static: シンプルなHTML/CSSで構成されていそうなページ
xx:役に立たない
x:文章は取れるが、画像が取れない
△: 画像と文章が取れるが、レイアウトはメチャクチャ
https://gyazo.com/49cfa2706f964accf345c6ed3a5932f9
o: レイアウトに一部問題あり
https://gyazo.com/c4454f521a224897912e7d479388be39
◎:レイアウトも完璧
https://gyazo.com/44e10d71e3adc1f1a0a8570be60061ed
その他の方法
リンクが飛べない
長いページで400エラーになる
WebをPDFにしてOCRはこの下位互換
「Webページまるごとダウンロードして保存」の上位互換
保存先がローカルだとデータ消失やURLが作れないのでGoogle Driveに保存
Google driveはGoogleドキュメントエディタ形式に変換すれば(アップロード時に自動変換)、中身を検索できる
HTMLのままでは検索できない
Dropbox
HTMLビュワーがついている
保存したHTMLをDropboxで開いたときの図
https://gyazo.com/a8d51f4ad71c0da89746f720b04d50b7
全文検索ができない
thx Misoni氏
Evernote
https://gyazo.com/7c1569ff3d477d39d50cc5618db986b4
ページ全体にすると
https://gyazo.com/c4454f521a224897912e7d479388be39
ちょっと変だけどまあヨシ
https://gyazo.com/13c57b24f5321de244516580c208beb1
広告がかぶっている
プライベート版
OneNote Web clipper
OneNoteに保存される
プレビュー
4種類ある
ページ全体
これが新聞記事のようなstaticなページでもうまく働かない(どのページでもうまく動かない)
https://gyazo.com/881fd689627d16a005c6340d4eeb440d
領域
記事
ブックマーク
試す
https://gyazo.com/f9c518a313300077d0c7f60a6d098cdb
記事で保存するとこうなる
Scrapboxはキャプチャできなかった
UIがOneNoteっぽい
https://gyazo.com/8dad41cb2806052e8d51deaa670e4d26
Scrapboxは全然ちゃんとできない
staticなページは行ける
参考