EDINETスクレイピング - InvestmentTechHack

EDINETスクレイピング

#EDINET #スクレイピング

作業の流れ

すべて191216 EDINETからデータ収集 comp.ipynb - Colaboratoryで行う

必要なコードはInvestmentTechHack/scrapingにまとめてある

1. 更新する期間のXBRLファイルのURLを収集

2. XBRLファイルをDL → CSVに変換

3. CSVから必要なデータを抽出する

まだ全銘柄をスクレイピングしていないので、element_idの確認が必要

一回作業して、歯抜けを探す

4. 手作業でcomp_20200316 - Google スプレッドシートを更新する

index( match() )とif(isna(),index(),index())で対応

※ 次回から、新規上場のデータも取得できるようにする

element id

ここで欲しい情報のelement_idを特定する

EDINET XBRL element_ids（Googleシート）

※ 現時点だと不十分・・・USGAAP等が含まれていない

タクソノミ要素リスト（Googleシート）

XBRLで上場企業の決算分析する方法まとめ。EDINETやEDGARの決算データからチャートを作ったり指標を計算してスクリーニングするまでの流れとコード例。 | シラベルノート

EDINET XBRLの勘定科目タグ集約リスト | シラベルノート

タクソノミは「データのデータ」です - XBRLな社長のブログ

2020年版EDINETタクソノミの公表について：金融庁

タクソノミ要素リスト（EXCEL:2,449KB） Googleシート

勘定科目リスト（EXCEL:1,103KB） Googleシート

taxonomy自体は、分類(学)。

wordpressでも taxonomy(category, tag)を使う.