data2vec、どうやってloadするのか
code:shell
cd examples/data2vec
# examples/data2vec/README.md にリンクがある nlp_base.pt をダウンロードして配置
wget -N 'https://dl.fbaipublicfiles.com/fairseq/gpt2_bpe/dict.txt'
python -i models/data2vec_text.py # モデルの定義を読み込む
code:python
>> model = Data2VecTextModel.from_pretrained(".", "nlp_base.pt")
from_pretrainedメソッドは、(大元の)ベースクラスのBaseFairseqModelが持つ
https://github.com/pytorch/fairseq/blob/995c204337d16a6146a433cee360e5a5bfbc9a6f/fairseq/models/fairseq_model.py#L236-L275
BaseFairseqModelはtorch.nn.Moduleを継承している
loadにdict.txtが必要(FileNotFoundError)
Please follow the RoBERTa instructions to preprocess your data. (examples/data2vec/README.md)
examples/roberta/README.mdを参照する
https://github.com/pytorch/fairseq/blob/11b2830d29aed8043e5011d64e14004347a08b50/examples/roberta/README.md
dict.txtで検索すると、curlで取得していた(上記コマンド)