transformersの文書分類の例のrun_glue.pyに手元のCSVやJSONファイルを指定したい
run_glue.pyのmain関数の中を見ている
For CSV/JSON files, this script will use as labels the column called 'label' and as pair of sentences the sentences in columns called 'sentence1' and 'sentence2' if such column exists or the first two columns not named label if at least two columns are provided.
CSVやJSONの形式その1:sentence1, sentence2, label
If the CSVs/JSONs contain only one non-label column, the script does single sentence classification on this single column.
CSVやJSONの形式その2:sentence, label
実装を読んだところ、ある程度自由度があることが分かった
datasetsのload_datasetsを呼び出して、JSONやCSVを読み込む
読み込んだデータ(raw_datasets)を続けて前処理し、上で引用したコメントの状態にしている
列名の取得(sentence1, sentence2以外の場合にも対応するための処理)
上で取得した列名を使って関数内関数を定義し、raw_datasetsを加工