Anthropicが行うWebスクレイピング
https://support.anthropic.com/ja/articles/8896518-anthropicはウェブからデータをクロールしていますか-また-サイト所有者はクローラーをブロックすることができますか
ポイント
業界標準に従い、Anthropicは、Webクローラーを介してインターネットから公開されているデータなどをモデル開発に使用している
1秒あたり1リクエスト以下に自己レート制限することで、最小限の混乱を目指している
robots.txt、CCBotユーザーエージェントの禁止を含む、「クロール禁止」シグナルを遵守する
当社は回避技術を尊重します。CAPTCHAのバイパスやサイトへのログインは試みません。
hiroya_iizuka.icon robots.txtを守ったり、高頻度のアクセスはしないと書いてあるが、Anthropicの違法なScraping疑惑の記事があるから、少し懐疑的。
https://www.techopedia.com/news/ai-startup-anthropic-faces-backlash-for-excessive-web-scraping
https://scrapbox.io/files/66a9fa619a29f0001c6b5eb0.png