TokenGT: Pure Transformers are Powerful Graph Learners
https://gyazo.com/cfa68a924d0c584ebaa51ff8f6500c78
入力について
まず, ノードとエッジをそれぞれ独立なものとして捉え, それぞれを同等にトークン$ Xとする
そのトークンに, ノードなのかエッジなのかを判別するType Identifiersをconcatして入力
トークン$ Xについて
なんで直交?→後述
ノード $ v \in \mathcal{V}については, $ X \leftarrow \lbrack X_u, P_v, P_v\rbrack
エッジ$ (u,v) \in \mathcal{E}については, $ X \leftarrow \lbrack X_{(u,v)}, P_u, P_v\rbrack
こうすれば, Attentionの内積計算でe=1, 0 (繋がり)を表現でき, グラフ構造を扱える 例えば
ノード $ k \in \mathcal{V}がエッジ$ e := (u,v) \in \mathcal{E}につながってるなら
$ [P_u,P_v\rbrack [P_k,P_k\rbrack ^\top = 1になるし, そうでないなら0になる
($ \because k = u or $ k = vで $ Pは直交行列)
直交行列$ Pについて→どうやって$ Pを得るの?
方法は2つ提案されている
1つ目: ORF (Orthogonal Random Features)
ほとんどランダムに近いので, トークン情報しかモデルは扱えない
にも拘らず, 結構いい精度出たらしい
ORFより良い精度が出たらしい
このあたりのデータセットの知見ないから結果みても何ともいえんな...
https://gyazo.com/74867acb6942d1c4267e3724094695ed
理論解析