Question 1

Cos'è un file robots.txt?

Accepted Answer

Un file robots.txt è un file di testo semplice alla radice del tuo dominio che dice ai crawler quali percorsi possono e non possono richiedere. Vive esattamente in una posizione: /robots.txt. Googlebot lo controlla prima di ogni crawl, così come Bingbot, GPTBot (OpenAI), ClaudeBot (Anthropic), CCBot (Common Crawl), PerplexityBot e Google-Extended. Il file usa una grammatica semplice. Scrivi uno o più blocchi User-agent, ciascuno seguito da regole Allow e Disallow. Una linea Sitemap vicino all'inizio punta i crawler al tuo index XML così non devono indovinare la struttura. Incolla qualsiasi URL di sito nel nostro checker robots.txt , scegli un User-agent e vedrai la tabella di regole parsate più quale regola vince per quel bot specifico su quel percorso specifico. Se non hai ancora un file, generane uno con il nostro generatore robots.txt e il preset CMS corretto integrato.

Question 2

Cosa testa davvero uno checker robots.txt?

Accepted Answer

Un vero checker robots.txt fa quattro cose. Recupera il file e conferma che è raggiungibile con uno stato 200 e il content-type corretto. Parsa la sintassi così catturi typo che infrangono silenziosamente le regole: capitalization sbagliata su User-agent, due punti mancanti, caratteri BOM vaganti all'inizio del file. Risolve un percorso specifico per un bot specifico così puoi rispondere "è /admin bloccato per GPTBot adesso?" senza indovinare. E rileva conflitti di ordine-regola dove due bot ereditano regole diverse da blocchi User-agent sovrapposti. La maggior parte dei checker gratuiti si ferma al passo uno. Il nostro esegue il set completo. Imposta Site URL , scegli il bot da User-agent , rilascia un optional Test path e ottieni un verdetto per regola. Quando distribuisci una correzione, conferma il cambiamento con un secondo passaggio nel checker prima di passare ad altro lavoro.

Question 3

Dove trovo il mio file robots.txt?

Accepted Answer

Digita il tuo dominio seguito da /robots.txt in qualsiasi browser. Se https://www.example.com/robots.txt restituisce un 200 e mostra testo semplice, ne hai uno. Se restituisce 404 o la tua homepage CMS, non ne hai uno. Il file deve stare esattamente alla radice del dominio. I percorsi sottodirectory come /blog/robots.txt vengono ignorati completamente da ogni crawler. I subdomini sono separati: blog.example.com e www.example.com ciascuno hanno bisogno del loro file alla loro radice. I siti WordPress di solito hanno uno virtuale generato dal plugin SEO; Shopify ne genera uno automaticamente e ne blocca la maggior parte; Next.js e Astro hanno bisogno che tu distribuisca un file statico sotto /public. Se non sei sicuro cosa vedano davvero i crawler, incolla il tuo URL nel nostro checker robots.txt e lo recuperiamo con gli esatti header che un bot reale invia così il risultato corrisponde alla realtà del crawler. Per una riscrittura pulita con preset CMS integrati, usa il generatore .

Question 4

Come correggo un errore "blocked by robots.txt" in Search Console?

Accepted Answer

Search Console segnala "blocked by robots.txt" quando una regola Disallow copre l'URL che Google ha provato a crawlare. Apri lo strumento URL Inspection per vedere quale regola ha matched Google. Poi esegui lo stesso URL attraverso il nostro checker robots.txt con User-agent impostato a Googlebot e il percorso bloccato incollato in Test path . Il checker ti mostra la regola esatta che è stata matched e il blocco User-agent da cui proviene, così puoi correggere la fonte invece di indovinare. Tre correzioni coprono quasi ogni caso. Rimuovi la linea Disallow offensiva. Restringila con un percorso più specifico. O aggiungi una regola Allow sopra di essa (il match più lungo vince sulla sovrapposizione). Distribuisci il cambiamento, testa lo stesso percorso di nuovo nel checker, poi richiedi l'indicizzazione di nuovo in Search Console. Se le pagine risultano ancora bloccate, la copia cached di Google potrebbe essere in gioco; si aggiorna con robots.txt circa ogni 24 ore.

Question 5

Dovrei bloccare i crawler AI in robots.txt?

Accepted Answer

Dipende da cosa stai ottimizzando. Bloccali se il tuo contenuto è il prodotto: editori, ricerca pagata, archivi di abbonamento, qualsiasi cosa in cui i dati di training gratuiti danneggiano il business. Consentili se vuoi essere citato nelle risposte di ChatGPT e Claude, dove essere la fonte citata guida traffico di referral di nuovo al tuo sito. L'elenco 2026 che vale la pena nominare esplicitamente: GPTBot (OpenAI), ClaudeBot e anthropic-ai (Anthropic), CCBot (Common Crawl, che allena molti modelli), PerplexityBot e Google-Extended (controlla l'uso di training delle pagine crawlate da Googlebot senza influire sui tuoi ranking nella ricerca Google normale). Il nostro generatore robots.txt ti dà una checkbox per ogni crawler così decidi per bot, non per tutto. Dopo aver distribuito, testa ognuno con il nostro checker contro un percorso reale per confermare che la regola si risolve come ti aspetti per quel bot. La maggior parte dei bug viene da conflitti di ordine-regola tra blocchi User-agent sovrapposti, non da voci mancanti.

Question 6

Come dovrebbe essere strutturato un file robots.txt?

Accepted Answer

Inizia con una linea Sitemap che punta al tuo index XML. Poi raggruppa le regole per User-agent. Il blocco wildcard (User-agent: *) cattura ogni bot non nominato altrove, quindi mettilo ultimo. Sopra di esso, aggiungi blocchi nominati per i bot che vuoi trattare diversamente: Googlebot, Bingbot, GPTBot, ClaudeBot, CCBot, PerplexityBot, Google-Extended. Ogni blocco può avere più linee Allow e Disallow. Il match più lungo e più specifico vince quando le regole si sovrappongono. Mantieni i percorsi case-sensitive: Disallow: /Admin non blocca /admin. Elenca un Sitemap per dominio, dichiarato una volta vicino all'inizio. Mantieni il file sotto 500 KB o Google inizia a ignorare le linee dopo quel punto. Il nostro generatore robots.txt ti fornisce tutto questo con un preset CMS e toggle per crawler AI. Una volta che lo pubblichi, verifica che la struttura si parsi correttamente con il nostro checker contro una manciata di URL reali e ogni bot nominato prima di chiudere il ticket.

Question 7

Qual è la differenza tra Disallow e noindex?

Accepted Answer

Disallow in robots.txt dice a un bot di non crawlare un URL. Non dice al bot di non indicizzarlo. Se un altro sito fa un link a una pagina Disallowed, Google può ancora elencare l'URL nei risultati di ricerca con "nessuna descrizione disponibile" sotto. Per effettivamente tenere una pagina fuori dall'indice, usa un tag meta robots noindex sulla pagina stessa o un header X-Robots-Tag noindex nella risposta HTTP. Il catch: Google deve crawlare la pagina per vedere il tag noindex. Quindi se sia Disallow che noindex, noindex non ha mai effetto e la pagina rimane nei risultati. Scegli uno per pagina. Disallow è per il crawl budget (bloccare admin, ricerca interna, URL di filtro). Noindex è per tenere il contenuto fuori dai risultati completamente. Per un audit completo a livello di pagina delle direttive robots, usa il nostro simulatore di crawler insieme al metadata checker del sito .

Question 8

robots.txt funziona ancora nel 2026?

Accepted Answer

Sì, per i crawler che scelgono di onorarlo. Googlebot, Bingbot e i principali crawler AI (GPTBot, ClaudeBot, PerplexityBot, CCBot, Google-Extended) rispettano tutti robots.txt come materia di policy. Gli scraper canaglia lo ignorano perché il file è una richiesta gentile, non un firewall. Se hai bisogno di blocco duro, aggiungi regole lato server: deny list IP, gestione bot Cloudflare, rate limiting o autenticazione davanti ai percorsi sensibili. Usa robots.txt per quello che è buono: plasma quale pagina i bot che ti interessano spendono il loro crawl budget su. La differenza 2026 è l'AI. Cinque anni fa, "i bot" significava Google e Bing. Oggi l'elenco è più lungo e ogni crawler AI usa un nome User-agent diverso. Il nostro checker testa uno qualsiasi di loro in un click così puoi vedere esattamente cosa vede ogni bot. Abbinalo al nostro simulatore di crawler per una vista pagina renderizzata.

Question 9

Posso usare wildcard in robots.txt?

Accepted Answer

Sì, due wildcard sono supportati e capiti da tutti i principali bot. L'asterisco (*) corrisponde a qualsiasi sequenza di caratteri e il segno di dollaro ($) ancora il pattern alla fine di un URL. Disallow: /*.pdf$ blocca ogni URL che finisce in .pdf. Disallow: /*?sort= blocca qualsiasi URL con un parametro sort da qualsiasi parte in esso. Combinali: Disallow: /search?*&page=$ blocca i risultati della ricerca interna paginati ma lascia la pagina di ricerca principale crawlabile. I wildcard non funzionano nelle linee User-agent, quindi non puoi scrivere User-agent: Google* e colpire ogni bot Google. Nomina ognuno esplicitamente (Googlebot, Googlebot-Image, Googlebot-News). Il match letterale più lungo vince su un match pattern più corto. Testa le regole wildcard con un percorso concreto nel nostro checker perché i modelli mentali si rompono velocemente con parametri annidati, query string e pattern sovrapposti che sembrano bene sulla carta. Per una baseline pulita, generane uno con il nostro generatore e itera da lì con percorsi di test.

Question 10

robots.txt proteggerà le pagine sensibili?

Accepted Answer

No. Robots.txt è un documento pubblico che chiunque può leggere a yourdomain.com/robots.txt digitandolo in un browser. Elencare un percorso lì dice a ogni crawler, ogni competitor e ogni umano curioso che il percorso esiste sul tuo sito. Per URL di staging, pannelli admin o file privati, questo è l'opposto di quello che vuoi: hai appena pubblicizzato. La protezione reale viene dai controlli lato server: autenticazione con password, IP allow list, accesso solo VPN o semplicemente non esporre l'URL su un server pubblico. Un tag meta noindex tiene la pagina fuori dai risultati di ricerca se la pagina è raggiungibile ma vuoi che sia privata dai ricercatori. Per contenuto veramente nascosto, non fare link, non elencarlo in sitemap e portalo con autenticazione. Usa robots.txt per il shaping del crawl budget su pagine di cui non ti dispiace siano pubbliche. Controlla cosa è esposto con il nostro metadata checker e conferma le regole robots con il nostro checker robots.txt .

Robots.txt Checker

Generate the whole content, not just check it.

Cosa fa davvero uno checker robots.txt

Come usare questo checker robots.txt

Perché testare per user-agent è importante

Precedenza delle regole e wildcard

Validazione sitemap e direttive di crawl

Errori di sintassi e edge case di validazione

Errori comuni

Suggerimenti avanzati

Generate the whole content, not just check it.

Domande frequenti

Strumenti gratuiti correlati