FireCrawl
https://scrapbox.io/files/663b3850b86107001d7b1a7b.png
https://docs.firecrawl.dev/introduction
FireCrawlは、あらゆるウェブサイトをクリーンでLLM対応のマークダウンに変換するように設計されたOSSツール。
高度なウェブクローリングおよびデータ変換が可能で、サイトマップが不要なサイトにも使える。
urlを指定するだけで、ウェブデータの収集、クリーニング、フォーマットを自動化してくれる。
Mendable.aiとfirecrawlコミュニティによって構築された。
AI開発者やデータサイエンティストに最適
Difyでも使うことができる。
無料でも、300回までクレジットが付与されている。
FireCrawlを使うときのコツ
https://x.com/0317_hiroya/status/1801632382333948095
中身だけを取得したい場合は、onlyMainContentを設定する。
before
https://scrapbox.io/files/666c5b7a904a16001c7a28cb.png
after
https://scrapbox.io/files/666c5bbf0c9446001c7fc565.png
Jina Reader APIとの違い
FireCrawlは、アクセス可能なすべてのサブページをクロールしてくれる。
ドキュメント全体、複数のページが可能ということ。
https://www.youtube.com/watch?v=QxHE4af5BQE&t=1s
参考
公式サイト: https://www.firecrawl.dev/
GitHub: https://github.com/mendableai/firecrawl
Docs: https://docs.firecrawl.dev/introduction