Anthropicが行うWebスクレイピング
ポイント
業界標準に従い、Anthropicは、Webクローラーを介してインターネットから公開されているデータなどをモデル開発に使用している 1秒あたり1リクエスト以下に自己レート制限することで、最小限の混乱を目指している
robots.txt、CCBotユーザーエージェントの禁止を含む、「クロール禁止」シグナルを遵守する
当社は回避技術を尊重します。CAPTCHAのバイパスやサイトへのログインは試みません。
hiroya_iizuka.icon robots.txtを守ったり、高頻度のアクセスはしないと書いてあるが、Anthropicの違法なScraping疑惑の記事があるから、少し懐疑的。
https://scrapbox.io/files/66a9fa619a29f0001c6b5eb0.png