webpage segmentation

Webpage Segmentation for Extracting Images and Their Surrounding Contextual Information

DOMツリー情報を利用したwebpage segumentationアルゴリズム。webpage内の画像領域について、unlisted/listes/semi-listedな画像セグメントを分類する

webpageの画像情報をDOM構造から特定、抽出することで画像を読み込むことなく、画像のテキスト情報からコンテキストを取得することができる

unlisted: プロフィール写真やロゴや、広告など独立した画像。画像ノードとテキストノードは兄弟関係にあり、ルートノードから分岐している

listed: 商品画像、ニュース画像などリストで表示される。同じような構造で2つ以上存在する。ルートタグの下にサブツリー的に画像ノードとテキストノードのまとまりがある。その他兄弟ノードも類似の構造をしている

semi-listed: 見た目的にはlistedと同じだが、DOM構造がunlistedと同じよう、兄弟にテキストノードが存在している

すべての画像ノードには周辺にコンテキストを表すテキストノードが存在する。また、DOMツリーにおいては分岐先に存在するノードになっている

ある画像とテキストの組に対して、親ノードがlistであればlisted、それ以外はunlisted。同レベルにテキストのみのノードが存在すればsemi-listedになる

100のwebpageを使用して、セグメントを付与。

1019種類のセグメントに対して、748の正解率であった。

Web Page Segmentation and Its Application for Web Information Crawling

A Graph-Theoretic Approach to Webpage Segmentation

dataset

アノテーションデータ

モデル・評価データ

code

segementation 実装