EDINETスクレイピング
#EDINET #スクレイピング
作業の流れ
すべて191216 EDINETからデータ収集 comp.ipynb - Colaboratoryで行う
必要なコードはInvestmentTechHack/scrapingにまとめてある
1. 更新する期間のXBRLファイルのURLを収集
2. XBRLファイルをDL → CSVに変換
3. CSVから必要なデータを抽出する
まだ全銘柄をスクレイピングしていないので、element_idの確認が必要
一回作業して、歯抜けを探す
4. 手作業でcomp_20200316 - Google スプレッドシートを更新する
index( match() )とif(isna(),index(),index())で対応
※ 次回から、新規上場のデータも取得できるようにする
element id
ここで欲しい情報のelement_idを特定する
EDINET XBRL element_ids(Googleシート)
※ 現時点だと不十分・・・USGAAP等が含まれていない
タクソノミ要素リスト(Googleシート)
XBRLで上場企業の決算分析する方法まとめ。EDINETやEDGARの決算データからチャートを作ったり指標を計算してスクリーニングするまでの流れとコード例。 | シラベルノート
EDINET XBRLの勘定科目タグ集約リスト | シラベルノート
タクソノミは「データのデータ」です - XBRLな社長のブログ
2020年版EDINETタクソノミの公表について:金融庁
タクソノミ要素リスト(EXCEL:2,449KB) Googleシート
勘定科目リスト(EXCEL:1,103KB) Googleシート
taxonomy自体は、分類(学)。
wordpressでも taxonomy(category, tag)を使う.