takeout.google.com
Googleが持ってる、自分の行動データをdownloadできる。
ここでは、一番自分の関心を表すであろう、Chromeのbrowsing dataをみてみた。
ファイルサイズは、3Mぐらいだった。解凍後21M.
jsonファイルの構造は、Browser Historyというkeyに、閲覧履歴が配列で入ってる。
その配列の要素は、例としては、以下の形。
code: example.json
{
page_transition: LINK,
title: Tweet修正 CEO「検討した」 - Yahoo!ニュース,
client_id: hLe7VJ71DgdEyHEjDN/pLA\u003d\u003d,
time_usec: 1579213788792081
},
どれくらいの期間のデータ?
$ jq '[."Browser History"|.[]|.time_usec|(./1000000|strftime("%Y-%m-%d"))]|unique|length' < BrowserHistory.json
52
52日間のデータ
ちなみに、行数は
$ jq '."Browser History"|length' < BrowserHistory.json
51156
51,156行の履歴。期間で切ってdownloadできるか? 行数やデータサイズなのか?
* 一日あたり、1000行? すくない感じだが、、、
transitionのタイプ別
$ cat BrowserHistory.json |jq '[."Browser History"|group_by(.page_transition)[]|{transitin:.0.page_transition, n:length}]|sort_by(.n)[] -c' code: output_by_transition_type.json
{"transitin":"KEYWORD","n":36}
{"transitin":"AUTO_BOOKMARK","n":545}
{"transitin":"AUTO_TOPLEVEL","n":837}
{"transitin":"RELOAD","n":2225}
{"transitin":"FORM_SUBMIT","n":2424}
{"transitin":"GENERATED","n":3316}
{"transitin":"TYPED","n":10381}
{"transitin":"LINK","n":31392}