March 19, 2024

Justice for Gemmel

Stellar business, nonpareil

Comment le créer et le configurer pour le SEO?

Comment le créer et le configurer pour le SEO?

Le fichier robots.txt, aussi connu sous le nom de protocole d’exclusion des robots, est un fichier particulièrement intéressant. Il permet de fournir des directives aux robots des moteurs de recherche quant à l’exploration (crawling) des pages de votre site web.

Contrairement à ce que l’on pourrait penser, il est très simple de créer et de paramétrer un fichier robots.txt. Pas besoin d’avoir de connaissances spécifiques en développement web, si c’est la question que vous vous posez. La seule chose dont vous aurez besoin, c’est d’un peu de temps devant vous. Et croyez-nous, le résultat vaut largement le détour! Dans cet article, les experts SEO de notre agence Web montréalaise vous expliquent pourquoi ce fichier est important pour votre SEO et nous allons vous montrer comment le configurer de manière optimale.

    1. Qu’est-ce que le fichier robots.txt?
    2. Pourquoi le fichier robots.txt est-il important pour votre SEO?
      1. Indiquez à Google quelles sont vos pages importantes
      2. Contrôler le crawl budget
      3. Aidez Google à mieux comprendre votre site Web
  1. Créez et configurez votre fichier robots.txt
    1. Créez votre fichier robots.txt
    2. Placez votre fichier robots.txt à la racine du site
    3. Les règles de base concernant le fichier robots.txt
    4. Les règles additionnelles concernant le fichier robots.txt
  2. Quelques spécificités à retenir sur le fichier robots.txt
  3. Vérifiez si votre fichier robots.txt fonctionne

 

1. Qu’est-ce que le fichier robots.txt?

Dans le monde du Web, les robots consistent majoritairement en des logiciels qui visitent les sites Web. Les exemples les plus communs sont, sans aucun doute, les robots des moteurs de recherche. Ces robots utilisés par Google, Bing, Yahoo, Baidu (etc.) ont pour rôle d’explorer l’ensemble des contenus des sites Internet et de les indexer par la suite.

Cette indexation permet d’apparaître, plus ou moins favorablement, dans les résultats de recherche en fonction de requêtes spécifiques.

Et justement, le fichier robots.txt vous permet d’influencer cette exploration. Autant vous dire que c’est un outil très puissant! Avant d’explorer un site Web, les robots d’exploration vérifient toujours le fichier robots.txt à la recherche d’instructions. Si votre site ne dispose pas de ce fichier ou que celui-ci est mal configuré, alors les robots sont censés crawler l’entièreté de votre site Web.

 

2. Pourquoi le fichier robots.txt est-il important pour votre SEO?

Deux raisons principales expliquent l’importance du fichier robots.txt concernant votre SEO.

2.1. Indiquez à Google quelles sont vos pages importantes

Premièrement, il vous permet de choisir les ressources de votre site que vous souhaitez voir explorées. Tout ce que vous jugez sans intérêt peut donc facilement être écarté du processus d’exploration des robots, afin qu’ils se concentrent sur l’essentiel. Autrement dit vos contenus les plus pertinents (pages de services, articles de blogue, etc.).

 

2.2. Contrôlez le crawl budget

Deuxièmement, grâce à celui-ci, vous pouvez contrôler la quantité de contenu explorée par les moteurs de recherche. Souvenez-vous, sans ce précieux fichier, ceux-ci sont censés explorer la totalité de votre site. Et si vous avez énormément de pages, il est possible que le temps de crawl que Google accorde à votre site soit trop faible. Dans ce cas, le robot pourrait passer son temps à explorer les pages les moins importantes de votre site.

 

2.3. En bref, aidez Google à mieux comprendre votre site Web

Il s’agit donc de faciliter l’exploration de votre site web en éliminant les URLs à faible valeur ajoutée afin d’optimiser le crawl budget (limites en termes de nombre de pages explorées sur un site web) des robots.

Voici quelques exemples de ce que Google considère comme URLs à faible valeur ajoutée:

  • Celle générées par la navigation à facettes (affiner une recherche à l’aide filtre)

fichier robots.txt navigation facettes

 

  • Celles générées par les identifiants de session. Par exemple, la connexion à son compte sur une boutique en ligne.
    fichier robots.txt page de connection amazon

 

En éliminant ces URLs, vous vous assurerez que vos pages ayant réellement de la valeur seront explorées et indexées. De ce fait, vous augmenterez grandement vos chances d’être bien référencé.

Maintenant que vous comprenez un peu mieux l’importance du fichier robots.txt pour votre SEO, nous pouvons passer à l’étape suivante, à savoir sa création ainsi que sa configuration.

 

3. Créez et configurez votre fichier robots.txt

3.1. Créez votre fichier robots.txt

Pour commencer, il faut créer votre fichier robots.txt. Pour cela, pas besoin de programme spécifique, vous pouvez utiliser un éditeur de texte basique : Bloc-notes si vous êtes sous Windows ou TextEdit si vous êtes sur macOS.

Veillez à bien le nommer « robots.txt », n’oubliez pas le « s » à la fin, sinon, il ne fonctionnera pas.

3.2. Placez votre fichier robots.txt à la racine du site

Ensuite, il faut que vous le placiez à la racine de votre site. Concrètement, si votre site est accessible via l’adresse https://monsite.com, le fichier robots.txt se trouvera à l’adresse suivante https://monsite.com/robots.txt.

Pour ce faire, deux solutions s’offrent à vous. Vous pouvez vous connecter à l’hébergeur de votre site internet, puis accéder au gestionnaire de fichiers dédié. Sinon, vous pouvez utiliser un client FTP (« File Transfer Protocol »), à l’instar de FilzeZilla afin de communiquer avec le serveur de votre site.

fichier robots.txt racine site web

 

3.3. Les règles de base concernant le fichier robots.txt

Votre fichier robots.txt placé, il ne vous reste plus qu’à le remplir. Pour vous donner une idée, voici ce à quoi peut ressembler un fichier robots.txt configuré:

fichier robots.txt configuration

 

Vous n’y comprenez pas grand-chose, pas vrai? Pas de panique, nous allons prendre le temps de tout définir.

Premièrement, il faut savoir que deux règles principales régissent ce fichier:

  • La directive « User-agent » : Elle désigne les robots des moteurs de recherche qui doivent suivre les directives énoncées dans le fichier.

directive user agent fichier robots.txt

  • La directive « Disallow » : Elle est utilisée pour indiquer qu’un répertoire ou une page du site ne doit pas être explorée par le « User-agent ». Sans cette directive, le robot explore normalement votre site web.

directive disallow fichier robots.txt

Cette règle du robots.txt est particulièrement intéressante pour votre SEO, puisque vous pouvez demander aux robots de ne pas explorer vos pages à faible valeur ajoutée. Pour optimiser le crawl budget des robots, vous pouvez, à l’aide de cette directive, leur demander de ne pas explorer les parties de votre site qui ne sont pas affichées au public.

Vous pouvez par exemple interdire l’accès à votre page de connexion :

directive interdiction page connexion fichier robots.txt

Ainsi, les robots ne perdront pas leur temps à explorer cette page et pourront se concentrer sur le plus important.

Continuons la présentation des règles de base. Il faut savoir qu’il existe des signes génériques qui sont associés aux directives :

  • L’astérisque * est ce qu’on appelle une « wildcard ». Dans le cas présent, elle signifie que le fichier robots.txt peut être exploré par l’ensemble des robots (user-agent).
  • On voit sur la deuxième ligne qu’il est interdit (disallow) à tous les robots d’accéder à l’ensemble des répertoires et des pages du site web. Le symbole / est utilisé pour signaler cela.

Les bases étant établies, nous allons à présent aborder les règles additionnelles.

 

3.4. Les règles additionnelles concernant le fichier robots.txt

3.4.1. La directive Allow

La directive « Allow » s’oppose à la directive « Disallow ». Elle n’est supportée que par Google et Bing. Généralement, elle est utilisée comme ceci :

directive allow fichier robots.txt

Dans cet exemple, l’ensemble des robots devrait éviter le répertoire /media, sauf le fichier formulaire.pdf

 

3.4.2. Empêcher l’accès à un moteur de recherche précis

Admettons que vous voulez bloquer l’accès aux répertoires et aux pages de votre site au robot de Bing (Bingbot). Il vous faudra procéder comme suit :

interdiction exploration bingbot fichier robots.txt

À noter que les robots des autres moteurs de recherche pourront explorer l’ensemble de votre site. Vous pouvez, si vous le souhaitez, créer différentes règles pour différents robots. Pour vous aider, voici une liste:

liste robots moteurs recherche fichier robots.txt

 

3.4.3. Le signe générique $

En plus des signes génériques * et /, il est possible de marquer la fin d’une URL à l’aide du signe $.

signe fichier robots.txt

Concrètement, cet exemple signifie que l’ensemble des robots des moteurs de recherche devraient éviter les URLs qui finissent par .php.

Note : les URLs avec des paramètres spécifiques du type : https://monsite.fr/page.php?lang=fr seront toujours accessibles étant donné que l’URL ne se finit pas directement après l’extension .php.

 

3.4.4. Le sitemap

Ce n’est pas obligatoire, mais si vous le souhaitez, vous pouvez aussi utiliser votre fichier robots.txt afin de mener les moteurs de recherche à votre sitemap XML. Autant en profiter, la plupart des moteurs de recherche le supportent (Google, Bing, Yahoo). Ainsi, ils comprendront mieux l’arborescence de votre site web.

ajout sitemap fichier robots.txt

 

3.4.5. Commentaires

Cette règle n’est pas prise en compte par les robots. Pour autant, elle permet de clarifier votre fichier robots.txt, surtout si celui-ci comporte un grand nombre de directives.

Toute phrase doit être précédée du symbole #, afin que les robots comprennent qu’il s’agit d’un commentaire.

commentaire fichier robots.txt

 

3.4.6. Directive noindex

Rappelez-vous, nous vous disions plus tôt que la directive « Disallow » était intéressante pour votre SEO. Eh bien, ce n’est pas tout à fait le cas, puisque même si elle empêche l’exploration de vos pages, il peut arriver que vos pages soient tout de même indexées.

La directive « noindex » permet d’empêcher cela. Associée à la directive « Disallow », elle permet de s’assurer que les robots ne visitent pas ou n’indexent pas certaines pages.
Reprenons l’exemple des pages de remerciements. Si vous voulez qu’elles ne soient pas indexées, voici comment il faut procéder : C’est l’inverse.

utilisation directive noindex fichier robots.txt

Il est aussi possible de demander aux robots de ne pas explorer les liens présents sur une page, pour cela il faut utiliser la directive « nofollow ». Sa configuration ne faisant pas partie du fichier robots.txt, nous n’allons pas l’aborder. Pour les curieux, Google a dédié une page à ce sujet.

4. Quelques spécificités à retenir sur le fichier robots.txt

Le fichier robots.txt, aussi simple soit-il, possède un certain nombre de spécificités qu’il convient de connaître afin d’éviter toute erreur qui pourrait nuire à votre site.

  • Ne pas tout mettre sur une même ligne : veillez à ce que chacune de vos directives soit sur une ligne différente. Plusieurs directives sur une même ligne provoqueront des problèmes et des incompréhensions pour les robots.

exemple meme ligne fichier robots.txt

  • Ordre de préséance : chaque robot traite le fichier robots.txt différemment. Par défaut, c’est la première directive qui l’emporte sur tout le reste. Cependant, c’est un peu différent chez Google et Bing. Ce sont les directives les plus spécifiques qui importent le plus.
  • Attention aux robots malveillants : le fichier robots.txt n’est qu’une indication sur ce que doivent faire les moteurs de recherche. Si les robots « bienveillants » jouent le jeu, ce n’est pas forcément le cas des robots « malveillants » qui ignoreront purement et simplement votre fichier.
  • Le fichier ne peut excéder 500 Ko : garder cela en tête lorsque vous configurez votre fichier robots.txt. Si celui-ci dépasse la taille maximale, il risque de ne pas être pris en compte.
  • Sensibilité à la casse : le fichier robots.txt est sensible à la casse, tout comme les différentes règles qui le composent. Alors, faites bien attention à cela. Concrètement, évitez toute majuscule dans le nom de vos répertoires, vos liens, etc.

Un fichier robots.txt par domaine ou sous-domaine : les directives d’un fichier ne peuvent être appliquées qu’à l’hôte où le fichier est hébergé.

 

5. Vérifiez si votre fichier robots.txt fonctionne

Maintenant que votre fichier est configuré, il vous faut le tester pour savoir si celui-ci est valide. Pour ce faire, rendez-vous sur Google Search Console. Connectez-vous à votre compte.

acces-ancienne-version-gsc-robots

 

Puis, dans l’onglet « Exploration », cliquez sur « Outil de test du fichier robots.txt ».

outil-test-fichier-robots

 

Remplissez le champ avec les données contenues dans votre fichier robots.txt, puis cliquez sur tester. Vous pouvez voir si votre fichier est compatible avec les différents robots.

bouton-tester-robots

 

Si le bouton « Tester » se change en « Autorisée », nous avons le plaisir de vous annoncer que votre fichier est valide!
Il ne vous reste plus qu’à le placer à la racine de votre site Web.

 

Suivez vos résultats suite à l’optimisation de votre fichier robots.txt

Vous savez à présent comment créer et configurer un fichier robots.txt. Vous devriez rapidement observer une augmentation de votre visibilité dans les résultats de recherche.

Grâce à ce fichier, vous allez grandement aider les robots des moteurs de recherche à comprendre votre site. Ceux-ci pourront alors explorer plus intelligemment votre site Web et afficher dans les résultats de recherche vos pages les plus pertinentes.

Si toutefois, vous avez besoin d’aide pour mettre en place votre fichier robots.txt, n’hésitez pas à contacter notre équipe d’experts SEO!