transformersのRoBERTaモデル訓練の準備
#Transformerによる自然言語処理
3章
config:
transformers.RobertaConfig
max_position_embeddings=514
はなぜ?(通常は512では?)
tokenizer:
#huggingface/tokenizers
で訓練・保存したトークナイザを読み込む
transformers.RobertaTokenizer
実装が異なる
ため、BertPreprocessの設定は不要(裏でやっているわけでもない)
model:
transformers.RobertaForMaskedLM
dataset:
transformers.LineByLineTextDataset (deprecated)
data-collator:
transformers.DataCollatorForLanguageModeling
データ
照合器
trainer:
transformers.Trainer
引数
transformers.TrainingArguments