Sito web avanzato: come bloccare i crawler basati sull'intelligenza artificiale dall'indicizzare il tuo sito

Alcuni proprietari di siti web scelgono di bloccare i crawler basati sull'IA, come ChatGPT e Bard, impedendo loro di scansionare il proprio sito e di apprendere o utilizzare i contenuti del sito. possibile bloccare questi user-agent basati sull'IA in modo simile a come si bloccano i crawler di Google, sostituendo il file robots.txt predefinito con un nuovo file che specifica disallow regole per specifici user-agent di intelligenza artificiale.

Avvertimento

La piattaforma Guesty Website non convalida i file personalizzati. Ad esempio, se viene caricato un file danneggiato, verr comunque visualizzato.

Per bloccare sia ChatGPT che Google-Extended:

  1. Crea un nuovo file robots.txt. Consigliamo di seguire le istruzioni di Google su come creare un file robots.txt.

  2. Aggiungi il seguente codice al nuovo file robots.txt. Tieni presente che i crawler elaborano il file robots.txt dall'alto verso il basso, quindi non consigliamo di aggiungere la direttiva jolly all'inizio.

    # Sitemap is also available on /sitemap.xml

    Sitemap: http://www.example.com/sitemap.xml

    User-agent: GPTBot

    Disallow: /

    User-agent: Google-Extended

    Disallow: /

    User-agent: *

  3. ( Facoltativo ) Se devi aggiungere altri gruppi, segui lo stesso formato:

    User-agent: ????

    Disallow: /

    E aggiungilo prima del carattere jolly User-agent: *

  4. Sostituisci il file robots.txt predefinito con il nuovo file. Per informazioni su come procedere, consulta la sezione Sitemap personalizzata, robots.txt e altri file. importante notare che, per sostituire il file predefinito, l'URL di origine deve corrispondere esattamente al nome del file.

Questo articolo ti è stato utile?
Utenti che ritengono sia utile: 0 su 0