Generateur robots.txt

Generez un fichier robots.txt optimise pour le SEO de votre site en quelques clics.

Resultat

User-agent: *
Disallow: /admin
Disallow: /api

User-agent: Googlebot
Allow: /

Sitemap: https://www.exemple.fr/sitemap.xml

Qu'est-ce que le fichier robots.txt ?

Le fichier robots.txt est un fichier texte place a la racine de votre site web qui indique aux robots d'exploration (crawlers) quelles pages ils peuvent ou ne peuvent pas visiter. C'est le premier fichier que Google, Bing et les autres moteurs de recherche consultent avant d'indexer votre site. Il fait partie du Robots Exclusion Protocol, un standard du web depuis 1994.

Comprendre les directives robots.txt

User-agent

Identifie le robot concerne par les regles qui suivent. User-agent: * cible tous les robots, tandis que User-agent: Googlebot ne cible que le crawler de Google. Vous pouvez definir des regles differentes pour chaque moteur de recherche.

Disallow

Interdit l'acces a un chemin specifique. Disallow: /admin bloque l'exploration de tout le repertoire /admin. Disallow: / bloque l'ensemble du site. Un Disallow vide autorise tout.

Allow

Autorise explicitement l'acces a un chemin, meme s'il est dans un repertoire bloque. Utile pour autoriser une page specifique dans un dossier interdit : Allow: /admin/public combinee avec Disallow: /admin.

Sitemap

Indique l'emplacement de votre sitemap XML. C'est une bonne pratique de toujours inclure cette directive car elle aide les moteurs de recherche a decouvrir toutes vos pages, meme celles qui ne sont pas reliees par des liens internes.

Crawl-delay

Definit un delai (en secondes) entre chaque requete du robot. Utile pour les serveurs a faible capacite qui risquent d'etre surcharges par le crawl. Google ignore cette directive — utilisez plutot la Google Search Console pour limiter la frequence de crawl de Googlebot.

Quels chemins bloquer dans robots.txt ?

Pages d'administration

/admin, /wp-admin, /dashboard — ces pages n'ont aucune valeur SEO et peuvent reveler des informations sur votre stack technique.

Points d'API

/api — les endpoints d'API retournent du JSON, pas du HTML. Les indexer gaspille votre budget de crawl et peut exposer des donnees sensibles.

Pages de recherche interne

/search, parametres ?q= — ces pages generent du contenu duplique et diluent votre autorite SEO. Google recommande de les bloquer.

Ressources temporaires

/tmp, /cgi-bin, pages de staging — tout contenu qui n'est pas destine au public doit etre bloque pour eviter l'indexation accidentelle.

Erreurs courantes avec robots.txt

Bloquer ses propres ressources CSS/JS est l'erreur la plus frequente. Google a besoin d'acceder a vos fichiers CSS et JavaScript pour comprendre le rendu de vos pages. Les bloquer peut degrader votre classement. Autre piege : confondre robots.txt et securite. Le fichier robots.txt est une simple recommandation — les robots malveillants l'ignorent. Pour proteger des pages sensibles, utilisez une authentification ou la balise noindex.

Attention egalement a ne pas bloquer des pages que vous souhaitez indexer. Un Disallow: / accidentel peut desindexer l'ensemble de votre site. Testez toujours votre fichier robots.txt avec l'outil de test de la Google Search Console avant de le deployer en production.

Ou placer le fichier robots.txt ?

Le fichier doit etre accessible a la racine de votre domaine : https://www.votresite.fr/robots.txt. Avec Next.js, vous pouvez le generer dynamiquement via un fichier app/robots.ts ou le placer statiquement dans le dossier public/. Pour WordPress, des plugins comme Yoast SEO le generent automatiquement.

Besoin d'optimiser le referencement de votre site ?

Le robots.txt est un element parmi d'autres de votre strategie SEO technique. Un audit complet couvre le sitemap, la structure de liens, la vitesse de chargement et l'indexation de vos pages.

Demander un audit SEO