スクレイピングにHTMLRewriterを使う
html-rewriter-wasmでHTMLをパースする - console.lealog();
cheerioの代替ないかな?と思ってたらまったく同じ気持ちが書いてあった
HTMLRewriterはCloudflare Workersのapiなんだが
miniflareで再現するためにwasm実装されたhtml-rewriter-wasmがある
worker上で動かすので、ストリーム前提な感じ
How To Use HTMLRewriter for Web Scraping | @qwtel
特定のelementの抽出などはこれが参考になる
<br/>などの中身がないタグでこけるのででちょっとした回避書いたら動いた
worker上でスクレイピングもできていいかもしれない