inajobの過去データ
experiment
調査
- inlineにエクスポートできている古いデータは
- 2018/2-2021/01
- twloginに残存しているデータは
- https://web.inajob.freeddns.org/twlogin/data/
- 2011/05 - 2018/04
- { } 取り込む
- フォーマット変換が必要
- タイトルはそのままで取り込めば良さそう
- diaryはスラッシュがページ名になっているケースが有る
- 2008/2 - 2011/05 空白の3年くらい
- この辺のデータはhowmに残っていたっぽい inajobのhowmのメモ
- https://web.archive.org/web/20080325004531/http://www015.upp.so-net.ne.jp/ina/piece-log.html#%E3%81%82%E3%82%8C%EF%BC%9F
- 2007/8 - 2008/2
- どう取り込むか難しいデータ
- { } 取り込む
- {x} log https://web.archive.org/web/20080325004531/http://www015.upp.so-net.ne.jp/ina/piece-log.html#log
- 一旦大きな塊でページにして、切り出していくのが良いかな
- 183nodeある
- ルートノードを日記にしてページを作る?
- サブタイトルはブラケティングする?
- 単にAPI呼び出すだけだとキーワードが抽出されない気がする
- ファイル名は例外
- { } project https://web.archive.org/web/20100203193658/http://www015.upp.so-net.ne.jp/ina/piece-project.html#project
- 数が少ないので個別対応
- { } FreewareReview https://web.archive.org/web/20080324003559/http://www015.upp.so-net.ne.jp/ina/piece-FreewareReview.html#FreewareReview
- 数が少ないので個別対応
- { } programming https://web.archive.org/web/20080324131915/http://www015.upp.so-net.ne.jp/ina/piece-programming.html#programming
- 数が少ないので個別対応
- { } linux https://web.archive.org/web/20080325194726/http://www015.upp.so-net.ne.jp/ina/piece-linux.html#linux
- 数が少ないので個別対応
- 2005/9 - 2007/8 の大体2年分くらいのデータは見つからず
- https://web.archive.org/web/20060809211534/http://www015.upp.so-net.ne.jp/ina/index.html
- このへんだろうけどうまくクロールされていない
- howmからコンバートしていた時期かな?
- 一瞬別の人のページになっている気がする?
- https://web.archive.org/web/20051120134719/http://www015.upp.so-net.ne.jp/ina/diary_2005_jun.html#diary_2005_jun-diary_2005_jun
- 2004/12 - 2005/9
- {x} json化した
- inlineに取り込んだ
- https://web.archive.org/web/20051101150127/http://www015.upp.so-net.ne.jp/ina/diary11.html
- 2004/8 - 2004/12
- {x} json化した
- inlineに取り込んだ
取り込み
- 結局取り込んだデータは・・
- 2004 8-12 マメに書いてる
- 2005 1-12 マメに書いてる
- 2006 殆ど無い
- 2007 1-12
- 2008 1-2
- 2009
- 2010 失われている no-ipでホストしていたkaruki_lightのデータと思われる
- 2011 5-12 マメに書いてる
- 2012 1-12
- 2013 1-12
- 2014 1-12
- 2015 1-12
- 2016 1-12
- 2017 1-4
- 2018以降 はもとから入っている
- 2018
- 2019 ない
- 2020 育休で充実している
- 2021 あまりない
- 2022 週記
- 2023 日記の習慣が復活
- 2024 ほぼ毎日
twloginの取り込み
- 生データはサーバからとってくる?
- 10.0.0.230 らしい
- うーむ、もう一台のcontrollerで、ログインできないな・・
- とりあえず、Podから吸い出すことに成功
- HTMLの解析
- $ /c/Users/USER/AppData/Local/Programs/Python/Python313/Scripts/pip.exe install beautifulsoup4
- pipにPATHが通っていない?まぁいいか
- ファイル名
- スラッシュを含むページが作れない
- 除外ファイル
- updatesは除外する
- 取り込みルール
- 以下のファイルを日記ページとしてマージする
- /1min/YYYYMMDD
- これは下のほうにしたいけどね・・
- /diary/YYYYMMDD...
- ...で一般化する
- /diary/YYYYMMDDSSSSSS
- 最低限の書式変換
- {x} 見出しが!
- {x} 箇条書きのハイフンの後にスペースが不要
- {x} ネストした箇条書きはハイフンを連続させる
- {x} ブロック記法は同じか?(スペースの有無はどうだっけ?)
- スペースは必須
- {x} amz記法
- ASIN, 画像URL, リンク, 見出し(スペース含む)
- item記法は リンク、画像、タイトル
- {対応しない} twitpic記法
- まだ画像が出る?
- もう出ない
- 対応不要
- {x} flickr記法
- まだ画像が出る?
- まだ出る
- 画像URL, URL, 見出し(スペース含む)
- item記法で要素が足りないケースをどうする?
- 最悪URLのみで
- {x} embed記法
- URL
2011/05 - 2018/04
> list
2011-
<<
> list
2012-
<<
> list
2013-
<<
> list
2014-
<<
> list
2015-
<<
> list
2016-
<<
> list
2017-
<<
> list
2018-
<<
twloginの日記ではないページ
- twloginの日記ではないページ一覧
2007 (-2008)
- Array.prototype.slice.call(document.querySelectorAll(".contents > .piece > .piece"))
- 上期未踏ユース成果報告会2007
- 画像について2007
- 今の日記スタイル2007
- 一般人には通じない
- 似非デュアル
- 残り done
- https://gist.github.com/inajob/a700ba51758a5fc3c691c41a258a269e
> list
2007-
<<
2005
04-01 4-16の間が500エラーになる
- あ、コンテンツが重複してるっぽい
> list
2005
<<
2004
> list
2004
<<