conll2003
conll03 = load_dataset("conll2003")
shared task
train, validation, testに分割済み
数は順に、14041, 3250, 3453
トークンに分かれている
NERのラベル
ner_tags: a list of classification labels (int)
{'O': 0, 'B-PER': 1, 'I-PER': 2, 'B-ORG': 3, 'I-ORG': 4, 'B-LOC': 5, 'I-LOC': 6, 'B-MISC': 7, 'I-MISC': 8}
ラベルの種類は少なめ(2*4+1)
実装を見ると、"https://data.deepai.org/conll2003.zip" から取得している