tokenizers.processors.ByteLevel
This post-processor takes care of trimming the offsets.
「オフセットをトリムする」
By default, the ByteLevel BPE might include whitespaces in the produced tokens. If you don’t want the offsets to include these whitespaces, then this PostProcessor must be used.
「デフォルトでは、ByteLevel BPEは生成したトークンに空白文字を含めるかもしれない」
「それらの空白文字を含むことによるオフセットを望まないならば、このPostProcessorが使われなければならない」
Parameters
trim_offsets (bool) — Whether to trim the whitespaces from the produced offsets.
デフォルトはTrue(=trimする)