ブラケティングされているがまだページがない単語ランキング
これはページを作る指標となるか?inajob.icon
本文を無理に書かなくても、hubになっているだけで周囲が説明を果たしてくれているという考え方もあるyosider.icon
結果を見ると、この気持ちよくわかりますねinajob.icon
多く存在するかつ文字数が一定以上、など条件をさらに絞ると良いかも
ちょっと古いが十分だろう
雑にスクリプトを組んでみた
引数で与えられたページの中身でまだページが存在していないブラケティングされた単語があればそれを標準出力に出す
icon記法とかがあれば剥がす(無視してもよかったかも)
code: get.py
import sys
import json
import re
import os
bracket = re.compile(r'\^\*\]');
path = "villagepump/pages"
with open(fname) as f:
obj = json.load(f)
bs = re.findall(bracket ,l"text") if len(bs) != 0:
for b in bs:
if not os.path.exists(os.path.join(path, r + ".json")):
print(r.encode("utf8"))
存在するページ全てに上記スクリプトを適用する
code: all.sh
IFS="
"
for f in ls villagepump/pages/; do
python get.py "villagepump/pages/$f"
done
出力をソートして頻出単語順に並べ替え
code:bash
$ sh all.sh|sort |uniq -c |sort -nr > out.txt
注意: 雑なのでノイズが入っている
ランキングの上の方はアイコン記法とか日記ページの影響を受けている
https://gyazo.com/0117e3353924a91221cc412f525ff7a4
この辺が面白そう
https://gyazo.com/a35e72f747d37b213860fa5aa84efb1d