メインコンテンツにスキップ

Anthropicはウェブからデータをクロールしていますか?また、サイト所有者はクローラーをブロックするにはどうすればよいですか?

昨日アップデートされました

業界標準に従い、Anthropicは公開ウェブからデータを収集してモデル開発を行う、ウェブを検索する、およびユーザーの指示に従ってウェブコンテンツを取得するために、様々なロボットを使用しています。Anthropicは異なるロボットを使用することで、ウェブサイト所有者の透明性と選択肢を実現しています。以下は、Anthropicが使用する3つのロボットに関する情報と、コンテンツへのアクセスを許可したいロボットを有効にし、許可したくないロボットを制限するためのサイト設定方法です。

ボット

用途

無効にした場合の動作

ClaudeBot

ClaudeBotは、生成AIモデルのトレーニングに貢献する可能性のあるウェブコンテンツを収集することで、生成AIモデルの有用性と安全性を向上させるのに役立ちます。

サイトがClaudeBotへのアクセスを制限すると、そのサイトの将来のコンテンツをAIモデルトレーニングデータセットから除外すべきであることを示します。

Claude-User

Claude-UserはClaudeのAIユーザーをサポートしています。個人がClaudeに質問をすると、Claude-Userエージェントを使用してウェブサイトにアクセスする場合があります。

Claude-Userを使用することで、サイト所有者はこれらのユーザーが開始したリクエストを通じてアクセスできるサイトを制御できます。サイトでClaude-Userを無効にすると、ユーザークエリに応じてコンテンツを取得することができなくなり、ユーザーが指定したウェブ検索でのサイトの可視性が低下する可能性があります。

Claude-SearchBot

Claude-SearchBotはウェブを検索して、ユーザーの検索結果の品質を向上させます。検索応答の関連性と正確性を向上させるために、オンラインコンテンツを具体的に分析します。

サイトでClaude-SearchBotを無効にすると、検索最適化のためにコンテンツをインデックスすることができなくなり、ユーザー検索結果での可視性と正確性が低下する可能性があります。

安全で信頼性の高いフロンティアシステムを構築し、責任あるAI開発の分野を進める使命の一環として、データ収集の原則と今後のクローリングをオプトアウトする方法に関する指示を共有しています。

  • データ収集は透明である必要があります。Anthropicは上記のボットを使用してウェブコンテンツにアクセスします。

  • クローリングは侵襲的または破壊的であってはいけません。同じドメインをクローリングする速度について慎重に考慮し、必要に応じてクロール遅延を尊重することで、最小限の支障を目指しています。

  • Anthropicのボットは、robots.txtの業界標準ディレクティブを尊重することで、「クローリング禁止」シグナルを尊重します。

  • Anthropicのボットは回避防止技術を尊重します(例えば、クローリングするサイトのCAPTCHAをバイパスしようとはしません)。

クローリング活動を制限するために、robots.txtへの非標準クロール遅延拡張をサポートしています。例えば以下のようになります。

User-agent: ClaudeBot

Crawl-delay: 1

ボットをウェブサイト全体からブロックするには、トップレベルディレクトリのrobots.txtファイルに以下を追加してください。オプトアウトしたいすべてのサブドメインについてこれを実行してください。例えば以下のようになります。

User-agent: ClaudeBot

Disallow: /

Anthropicボットによるクローリングをオプトアウトするには、上記の方法でrobots.txtファイルを変更する必要があります。Anthropicボットが動作するIPアドレスをブロックするなどの代替方法は、robots.txtファイルを読み取る能力を妨げるため、正しく機能しない可能性があり、オプトアウトを確実に保証しません。さらに、サービスプロバイダーのパブリックIPを使用しているため、現在IPレンジを公開していません。これは将来変わる可能性があります。

データ処理慣行とコミットメントの詳細については、ヘルプセンターをご覧ください。さらに質問がある場合、またはAnthropicボットが誤動作している可能性があると思われる場合は、[email protected]までお問い合わせください。報告を確認するのが難しいため、お問い合わせの際はお客様が連絡されているドメインを含むメールアドレスからお問い合わせください。

こちらの回答で解決しましたか?