Data processing for Causal Language Modeling

https://youtu.be/ma1TrR7gE7I?si=tAQ9NvWLI5C8Hvn6

Causal LM: 次のトークンを予測

収集したテキスト

トークン化

return_length=True指定よさそう

outputs["length"]ができている

return_overflowも指定している

コンテキスト長ぴったりでない部分（短すぎる）を捨てている

コンテキスト長だけ詰める

テキストどうしをつなげる！

テキストどうしの区切りにEOSトークン

code:python

output = model(input_ids=batch"input_ids", labels=batch"input_ids")

output.loss

入力トークン列を1つずつ左にずらすと、正解トークンとなる

transformersがずらすのをやってくれるとのこと