現代日本語書き言葉均衡コーパス
書籍全般、雑誌全般、新聞、白書、ブログ、 ネット掲示板、教科書、法律などのジャンルにまたがって1億430万語のデータを格納しており、各ジャンルについて無作為にサンプルを抽出しています。
http://pj.ninjal.ac.jp/corpus_center/bccwj/index.html