本文抽出
#自然言語処理
あるURLが与えられたときに、ヘッダー・フッダー・広告などを除去して、本文のみを得るための技術。
HTMLを解析して
ヒューリスティクス
を使うか、サンプルがある場合は
パターン認識
を使う。