Data processing for Causal Language Modeling
https://youtu.be/ma1TrR7gE7I?si=tAQ9NvWLI5C8Hvn6
Causal LM: 次のトークンを予測
収集したテキスト
トークン化
return_length=True指定よさそう
outputs["length"]ができている
return_overflowも指定している
コンテキスト長ぴったりでない部分(短すぎる)を捨てている
コンテキスト長だけ詰める
テキストどうしをつなげる!
テキストどうしの区切りにEOSトークン
code:python
output.loss
入力トークン列を1つずつ左にずらすと、正解トークンとなる
transformersがずらすのをやってくれるとのこと