トークナイザ(『コンピュータシステムの理論と実装』10.1.1)
10.1.1 字句解析
文字のグループをトークン(言語の構文によって定義されている)としてまとめる
このとき、空白文字やコメントは無視される
この作業の呼称(以下は同じ意味)
字句解析(lexical analysis)
スキャニング(scanning)
トークン化(tokenizing)
トークンは意味のある最小単位
イメージ:w, h, i, l, eではなくwhile
一連のトークンがコンパイラへの主な入力
プログラミング言語は、それが許可するトークンと、そのトークンを意味のあるプログラム構造へ結合させる構文ルールを正確に指定する
C言語のコードにおけるトークンの例(図10-2)
キーワード
シンボル
識別子
定値
Pythonにはtokenizeモジュールがある