(Hitachi-Survey) Neural Design Network: Graphic Layout Generation with Constraints
どんなものか ( 要約、システムのI/Oなど)
cVAEとGNNを用いて、3段階のモデルからグラフィックデザインのレイアウトを決定するモデル
コンポーネント(文章、ヘッダー、画像など)の相互位置関係や大きさのpxをユーザーが任意で指定して、そのルールに基づいたレイアウト生成が可能
取り上げた理由
本研究の焦点は「グラフィックデザイン」であり、主に雑誌やWebページなどのレイアウト決定に焦点を当てているため、グラフィックレコーディングとは異なる。しかし、イラストと文章というコンポーネントのレイアウトを決定するというタスクにおいては共通しているため、本研究を取り上げた。
先行研究と比べてすごいところ、貢献
既存の問題点:既存の研究で行われているヒューリスティックな手法を用いたレイアウトの決定には、コンポーネント間の相互関係の考慮に限界がある。機械学習ベースのレイアウト決定モデルはまだあまり検討されていない。 機械学習モデルのLayoutGANやLayoutVAEは、一般的なレイアウトを決定することはできるが、LGANは任意の制約を産むことができない。また、グラフィックデザインでは写実的な画像のレイアウトよりもコンポーネント間の相互関係をより深く考慮する必要がある
貢献:3つのモジュールにより構成されるニューラルデザインネットワーク(NDN)を導入し、ユーザーが指定した属性と制約を持つコンポーネントのセットからグラフィックデザインのレイアウトを合成する新しいアプローチを提案する 既存の問題点:そもそもレイアウトの決定をおこなうためのデータセットが不足しており、機械学習を用いると学習と評価が不十分になってしまう。 貢献:現実世界の広告レイアウトのデータセットを収集した 手法
https://gyazo.com/d278d54be8318675f09eba3ac95d2b0b
ノード間の依存関係をモデル化するGraph convolutional networkとcVAEの合わせ技
目的は、ユーザーが指定した制約と、画像広告のレイアウトにおける一般的なルールの両方を満たす、一連のデザインレイアウトを合成すること
ex) “logo at bottom-middle of canvas”, “call-to-action button of size (100px, 500px)”, “call-to-action-button is below logo”
3段階のニューラルネットで構成される
1: Relation Prediction
ノード間の相対的な位置関係や大きさを決定
Graph convolutional networkを利用
2: Layout Generation
1で決定したノードとエッジの情報をもとにレイアウトを決定
cVAEを利用
3: Refinement
2で決定したレイアウトを微調整する
Graph convolutional networkを利用
入力
1:配置したいコンポーネント
G = {Gloc, Gsize} = (O, Eloc, Esize) where O = {o0, o1, ...)
O: コンポーネントの集合(o0 = 背景となるキャンバス)
Eloc, Esize: コンポーネントから各コンポーネントに伸びるエッジの集合
Eloc: ノードの方向
Esize: コンポーネントの相対的な大きさ
2:ユーザーがデザインに課す制約
Eloc, Esizeを手動で指定して、コンポーネントの大きさや位置関係を決定
ユーザーが決定しないEloc, EsizeにはUnknown Token(Gp)を入力
出力
キャンバスコンポーネントo0上でのG
検証方法
Magazine, RICO, Image banner ads.(オリジナルに作成)の3つのデータセットにより学習および評価を行う
比較するモデルはsd2im, LayoutVAE, Neural Design Network(ours)
定量評価
https://gyazo.com/bab01a8422cb4bd3bf1c88ce2f80065d
概ねベースラインを超えたスコアが出ているが、sg2im-none(ユーザーによる制約を設けないレイアウト生成)に一部劣っている
定性評価
https://gyazo.com/a8b190999c166b53cf1bb791b78ae22chttps://gyazo.com/620dc8a68d6dca4d88292f6399810cf1
議論、課題
機械学習を用いたグラフィックデザインのレイアウト決定の研究は未だ不十分である
グラフィックデザインは、色、フォント、セマンティックラベルなどのコンテンツ属性を含む複雑なプロセスなので、そこを考慮したモデルをつくれるとより有用性が高まるのではないだろうか
次に読むべき論文
LayoutVAE
コメント
参考文献