inajobの過去データ
調査
- inlineにエクスポートできている古いデータは
- 2018/2-2021/01
- twloginに残存しているデータは
- 2011/05 - 2018/04
- { } 取り込む
- フォーマット変換が必要
- タイトルはそのままで取り込めば良さそう
- diaryはスラッシュがページ名になっているケースが有る
- 2008/2 - 2011/05 空白の3年くらい
- 2007/8 - 2008/2
- どう取り込むか難しいデータ
- { } 取り込む
- 一旦大きな塊でページにして、切り出していくのが良いかな
- 183nodeある
- ルートノードを日記にしてページを作る?
- サブタイトルはブラケティングする?
- 単にAPI呼び出すだけだとキーワードが抽出されない気がする
- ファイル名は例外
- 数が少ないので個別対応
- 数が少ないので個別対応
- 数が少ないので個別対応
- 数が少ないので個別対応
- 2005/9 - 2007/8 の大体2年分くらいのデータは見つからず
- このへんだろうけどうまくクロールされていない
- howmからコンバートしていた時期かな?
- 一瞬別の人のページになっている気がする?
- 2004/12 - 2005/9
- {x} json化した
- inlineに取り込んだ
- 2004/8 - 2004/12
- {x} json化した
- inlineに取り込んだ
取り込み
- 結局取り込んだデータは・・
- 2004 8-12 マメに書いてる
- 2005 1-12 マメに書いてる
- 2006 殆ど無い
- 2007 1-12
- 2008 1-2
- 2009
- 2010 失われている no-ipでホストしていたkaruki_lightのデータと思われる
- 2011 5-12 マメに書いてる
- 2012 1-12
- 2013 1-12
- 2014 1-12
- 2015 1-12
- 2016 1-12
- 2017 1-4
- 2018以降 はもとから入っている
- 2018
- 2019 ない
- 2020 育休で充実している
- 2021 あまりない
- 2022 週記
- 2023 日記の習慣が復活
- 2024 ほぼ毎日
twloginの取り込み
- 生データはサーバからとってくる?
- 10.0.0.230 らしい
- うーむ、もう一台のcontrollerで、ログインできないな・・
- とりあえず、Podから吸い出すことに成功
- HTMLの解析
- $ /c/Users/USER/AppData/Local/Programs/Python/Python313/Scripts/pip.exe install beautifulsoup4
- pipにPATHが通っていない?まぁいいか
- ファイル名
- スラッシュを含むページが作れない
- 除外ファイル
- updatesは除外する
- 取り込みルール
- 以下のファイルを日記ページとしてマージする
- /1min/YYYYMMDD
- これは下のほうにしたいけどね・・
- /diary/YYYYMMDD...
- ...で一般化する
- /diary/YYYYMMDDSSSSSS
- 最低限の書式変換
- {x} 見出しが!
- {x} 箇条書きのハイフンの後にスペースが不要
- {x} ネストした箇条書きはハイフンを連続させる
- {x} ブロック記法は同じか?(スペースの有無はどうだっけ?)
- スペースは必須
- {x} amz記法
- ASIN, 画像URL, リンク, 見出し(スペース含む)
- item記法は リンク、画像、タイトル
- {対応しない} twitpic記法
- まだ画像が出る?
- もう出ない
- 対応不要
- {x} flickr記法
- まだ画像が出る?
- まだ出る
- 画像URL, URL, 見出し(スペース含む)
- item記法で要素が足りないケースをどうする?
- 最悪URLのみで
- {x} embed記法
- URL
2011/05 - 2018/04
> list
2011-
<<
> list
2012-
<<
> list
2013-
<<
> list
2014-
<<
> list
2015-
<<
> list
2016-
<<
> list
2017-
<<
> list
2018-
<<
twloginの日記ではないページ
2007 (-2008)
- Array.prototype.slice.call(document.querySelectorAll(".contents > .piece > .piece"))
- 残り done
> list
2007-
<<
2005
04-01 4-16の間が500エラーになる
- あ、コンテンツが重複してるっぽい
> list
2005
<<
2004
> list
2004
<<