よくある地名をリストする
EpisoPassの問題プールの地名リストを作るために、よくある住所/地名を取得する方法を考えてみた
方法1: ユーザーローカルの個人情報ジェネレータを使う
それっぽい住所をランダム(?)に1万件生成させることができる
こういうデータが得られる
code:conv.rb
ARGF.each { |line|
line.chomp!
line.sub!(/^...?(県|道|都|府)/,'')
line.sub!(/^..?.?.?(市|区|郡)/,'')
line.sub!(/^..?.?(市|区|郡)/,'')
line.sub!(/1-9.*$/,'')
puts line
}
% ruby conv.rb juusho.csv| sort | uniq -c | sort -r -n | ruby -n -e 'puts $_.split1'
方法2: 住所.jpのデータを使う
% nkf -w zenkoku.csv | ruby -n -e 'puts $_.split(",")11' | sort | uniq -c | sort -r -n | ruby -n -e 'puts $_.split1' | ruby -n -e 'puts $_.gsub("\"","")'
どちらでもそれなりに住所リストは取得できる模様
#Tips
? よくある(住所|地名)のリストを取得する