Lewati ke konten utama

Apakah Anthropic mengumpulkan data dari web, dan bagaimana pemilik situs dapat memblokir crawler?

Diperbarui hari ini

Sesuai standar industri, Anthropic menggunakan berbagai robot untuk mengumpulkan data dari web publik untuk pengembangan model, pencarian web, dan pengambilan konten web sesuai arahan pengguna. Anthropic menggunakan robot yang berbeda untuk memberikan transparansi dan pilihan kepada pemilik situs. Di bawah ini adalah informasi tentang tiga robot yang digunakan Anthropic dan cara mengatur preferensi situs Anda untuk memungkinkan akses yang Anda inginkan dan membatasi yang tidak Anda inginkan.

Bot

Penggunaan

Apa yang terjadi saat Anda menonaktifkannya

ClaudeBot

ClaudeBot membantu meningkatkan utilitas dan keamanan model AI generatif kami dengan mengumpulkan konten web yang berpotensi berkontribusi pada pelatihan mereka.

Ketika situs membatasi akses ClaudeBot, ini menandakan bahwa materi masa depan situs harus dikecualikan dari dataset pelatihan model AI kami.

Claude-User

Claude-User mendukung pengguna Claude AI. Ketika individu mengajukan pertanyaan kepada Claude, mungkin mengakses situs web menggunakan agen Claude-User.

Claude-User memungkinkan pemilik situs mengontrol situs mana yang dapat diakses melalui permintaan yang dimulai pengguna ini. Menonaktifkan Claude-User di situs Anda mencegah sistem kami mengambil konten Anda sebagai respons terhadap kueri pengguna, yang dapat mengurangi visibilitas situs Anda untuk pencarian web yang diarahkan pengguna.

Claude-SearchBot

Claude-SearchBot menjelajahi web untuk meningkatkan kualitas hasil pencarian bagi pengguna. Ini menganalisis konten online secara khusus untuk meningkatkan relevansi dan akurasi respons pencarian.

Menonaktifkan Claude-SearchBot di situs Anda mencegah sistem kami mengindeks konten Anda untuk optimasi pencarian, yang dapat mengurangi visibilitas dan akurasi situs Anda dalam hasil pencarian pengguna.

Sebagai bagian dari misi kami untuk membangun sistem frontier yang aman dan andal serta memajukan bidang pengembangan AI yang bertanggung jawab, kami berbagi prinsip-prinsip yang kami gunakan untuk mengumpulkan data serta instruksi tentang cara menolak crawling kami ke depannya:

  • Pengumpulan data kami harus transparan. Anthropic menggunakan Bot yang dijelaskan di atas untuk mengakses konten web.

  • Crawling kami tidak boleh mengganggu atau merusak. Kami bertujuan untuk gangguan minimal dengan berpikir matang tentang seberapa cepat kami merayapi domain yang sama dan menghormati Crawl-delay jika sesuai.

  • Bot Anthropic menghormati sinyal "jangan rayapi" dengan mematuhi arahan standar industri dalam robots.txt.

  • Bot Anthropic menghormati teknologi anti-circumvention (misalnya, kami tidak akan mencoba melewati CAPTCHA untuk situs yang kami rayapi.)

Untuk membatasi aktivitas crawling, kami mendukung ekstensi Crawl-delay non-standar ke robots.txt. Contoh ini mungkin:

User-agent: ClaudeBot

Crawl-delay: 1

Untuk memblokir Bot dari seluruh situs web Anda, tambahkan ini ke file robots.txt di direktori tingkat atas Anda. Harap lakukan ini untuk setiap subdomain yang ingin Anda tolak. Contohnya adalah:

User-agent: ClaudeBot

Disallow: /

Menolak crawling oleh Bot Anthropic memerlukan modifikasi file robots.txt dengan cara di atas. Metode alternatif seperti memblokir alamat IP dari mana Bot Anthropic beroperasi mungkin tidak berfungsi dengan benar atau secara konsisten menjamin penolakan, karena hal ini menghambat kemampuan kami untuk membaca file robots.txt Anda. Jika crawler memiliki alamat IP sumber di daftar ini, ini menunjukkan bahwa crawler berasal dari Anthropic.

Anda dapat mempelajari lebih lanjut tentang praktik penanganan data dan komitmen kami di Pusat Bantuan kami. Jika Anda memiliki pertanyaan lebih lanjut, atau percaya bahwa Bot kami mungkin tidak berfungsi, silakan hubungi [email protected]. Harap hubungi kami dari email yang menyertakan domain yang Anda hubungi, karena sebaliknya sulit untuk memverifikasi laporan.

Anda dapat diberitahu tentang perubahan substansial pada artikel ini dengan mengklik di sini dan menyelesaikan formulir:

Apakah pertanyaan Anda terjawab?