webpage segmentation
Webpage Segmentation for Extracting Images and Their Surrounding Contextual Information
DOMツリー情報を利用したwebpage segumentationアルゴリズム。webpage内の画像領域について、unlisted/listes/semi-listedな画像セグメントを分類する
webpageの画像情報をDOM構造から特定、抽出することで画像を読み込むことなく、画像のテキスト情報からコンテキストを取得することができる
unlisted: プロフィール写真やロゴや、広告など独立した画像。画像ノードとテキストノードは兄弟関係にあり、ルートノードから分岐している
listed: 商品画像、ニュース画像などリストで表示される。同じような構造で2つ以上存在する。ルートタグの下にサブツリー的に画像ノードとテキストノードのまとまりがある。その他兄弟ノードも類似の構造をしている
semi-listed: 見た目的にはlistedと同じだが、DOM構造がunlistedと同じよう、兄弟にテキストノードが存在している
すべての画像ノードには周辺にコンテキストを表すテキストノードが存在する。また、DOMツリーにおいては分岐先に存在するノードになっている
ある画像とテキストの組に対して、親ノードがlistであればlisted、それ以外はunlisted。同レベルにテキストのみのノードが存在すればsemi-listedになる
100のwebpageを使用して、セグメントを付与。
1019種類のセグメントに対して、748の正解率であった。
Web Page Segmentation and Its Application for Web Information Crawling
A Graph-Theoretic Approach to Webpage Segmentation
dataset
アノテーションデータ
モデル・評価データ
code
segementation 実装