Sito web avanzato: come bloccare i crawler basati sull'intelligenza artificiale dall'indicizzare il tuo sito

Alcuni proprietari di siti web scelgono di bloccare i crawler basati sull'IA, come ChatGPT e Bard, impedendo loro di scansionare il proprio sito e di apprendere o utilizzare i contenuti del sito. possibile bloccare questi user-agent basati sull'IA in modo simile a come si bloccano i crawler di Google, sostituendo il file robots.txt predefinito con un nuovo file che specifica disallow regole per specifici user-agent di intelligenza artificiale.

Avvertimento

La piattaforma Guesty Website non convalida i file personalizzati. Ad esempio, se viene caricato un file danneggiato, verr comunque visualizzato.

Per bloccare sia ChatGPT che Google-Extended:

Crea un nuovo file robots.txt. Consigliamo di seguire le istruzioni di Google su come creare un file robots.txt.
Aggiungi il seguente codice al nuovo file robots.txt. Tieni presente che i crawler elaborano il file robots.txt dall'alto verso il basso, quindi non consigliamo di aggiungere la direttiva jolly all'inizio.

# Sitemap is also available on /sitemap.xml

Sitemap: http://www.example.com/sitemap.xml

User-agent: GPTBot

Disallow: /

User-agent: Google-Extended

Disallow: /

User-agent: *
( Facoltativo ) Se devi aggiungere altri gruppi, segui lo stesso formato:

User-agent: ????

Disallow: /

E aggiungilo prima del carattere jolly User-agent: *
Sostituisci il file robots.txt predefinito con il nuovo file. Per informazioni su come procedere, consulta la sezione Sitemap personalizzata, robots.txt e altri file. importante notare che, per sostituire il file predefinito, l'URL di origine deve corrispondere esattamente al nome del file.

Correlato a:

GFP: Guesty Booking Website

Sito web avanzato: come bloccare i crawler basati sull'intelligenza artificiale dall'indicizzare il tuo sito

Correlato a:

Fai un tour di Guesty