医療分野の言語資源
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9845184/ の表1にまとまっている
BC5CDR
BioCreative-V-CDR-Corpus
https://github.com/JHnlp/BioCreative-V-CDR-Corpus
class
disease
Chemical
NCBI Disease Corpus
https://www.ncbi.nlm.nih.gov/research/bionlp/Data/disease/
https://pubmed.ncbi.nlm.nih.gov/24393765/
PubMedの抄録が元データ
category
Specific Disease
Disease Class
Modifier
Composite Mention
MIMIC-IV
電子カルテデータセット
The Medical Information Mart for Intensive Care (MIMIC)-IV database is comprised of deidentified electronic health records for patients admitted to the Beth Israel Deaconess Medical Center. Access to MIMIC-IV is limited to credentialed users. Here, we have provided an openly-available demo of MIMIC-IV containing a subset of 100 patients. The dataset includes similar content to MIMIC-IV, but excludes free-text clinical notes. The demo may be useful for running workshops and for assessing whether the MIMIC-IV is appropriate for a study before making an access request.
https://www.nature.com/articles/s41597-022-01899-x
症例報告コーパス(iCorpus)
電子カルテのデータを利活用するため、経過記録やサマリ等の自由記載から診断や所見などの情報を抽出する技術が求められており、その研究・開発を実施するためには、入力となるテキストと出力となる注釈が必要です。当講座では実用的な注釈データの構築を研究として行っており、さらに構築した注釈データを、対象としたテキストとともに研究者に対して公開することで、日本語の医用人工知能の研究を促進します。
https://ai-health.m.u-tokyo.ac.jp/home/research/corpus
臨床ビネット
xxx
参考
私のブックマーク「医療情報処理ー病院のカルテデータを中心にー」