2024/11/13 crawl4ai 試す
GitHub - unclecode/crawl4ai: 🔥🕷️ Crawl4AI: Open-source LLM Friendly Web Crawler & Scrapper
Home - Crawl4AI Documentation
WebサイトをスクレイピングしてLLMで使いやすいデータにする「Crawl4AI」を試す
Docker で動かす
$ docker pull unclecode/crawl4ai:basic
$ docker run -p 11235:11235 unclecode/crawl4ai:basic
ここに API リクエスト送ってクロールしてもらう
出力形式
Output Formats - Crawl4AI Documentation
同じドメインや同階層以下のパスのリンクを辿ってまとめてほしいのだが...
https://crawl4ai.com/mkdocs/advanced/content-processing/#link-classification
こういうのがあるのは便利
ページ辿ったりするには直接コード書けるほうがいい気がする