FireCrawl
https://scrapbox.io/files/663b3850b86107001d7b1a7b.png
FireCrawlは、あらゆるウェブサイトをクリーンでLLM対応のマークダウンに変換するように設計されたOSSツール。
高度なウェブクローリングおよびデータ変換が可能で、サイトマップが不要なサイトにも使える。
urlを指定するだけで、ウェブデータの収集、クリーニング、フォーマットを自動化してくれる。
Mendable.aiとfirecrawlコミュニティによって構築された。
AI開発者やデータサイエンティストに最適
無料でも、300回までクレジットが付与されている。
FireCrawlを使うときのコツ
中身だけを取得したい場合は、onlyMainContentを設定する。
before
https://scrapbox.io/files/666c5b7a904a16001c7a28cb.png
after
https://scrapbox.io/files/666c5bbf0c9446001c7fc565.png
FireCrawlは、アクセス可能なすべてのサブページをクロールしてくれる。
ドキュメント全体、複数のページが可能ということ。
https://www.youtube.com/watch?v=QxHE4af5BQE&t=1s
参考