Tous les blogues

Comment optimiser votre ficher robots.txt

par Globalia | 12 août 2015

Développement Web Affaires Électroniques

L'optimisation du référencement (SEO en anglais) est aujourd'hui une priorité pour tout projet important sur le Web. Cependant l'optimisation du référencement ne consiste pas seulement à faire du link-building ou à utiliser les bons mot-clés, mais passe aussi par des tactiques plus complexes comme l'optimisation du fichier robots.txt.

Avez-vous déjà entendu parler du fichier robots.txt ? Si la réponse est non, vous avez encore du chemin à faire en optimisation du référencement de votre site. En effet ce fichier va influencer grandement sur votre référencement sur les moteurs de recherche.

Découvrez dès maintenant ce qu'est un fichier robots.txt, pourquoi il est important pour votre référencement et comment l'optimiser.

Qu'est-ce que le fichier robots.txt ?

Les administrateurs de sites internet utilisent le fichier robots.txt comme outil pour donner des instructions aux robots des moteurs de recherche comme Google ou Bing. Il permet en effet de développer un protocole d'exclusion (en anglais The Robot Exclusion Protocol) qui va changer la façon dont le robot du moteur de recherche indexe les différentes pages de votre site lorsqu'il l'analyse.

Ce fichier est placé dans la hiérarchie du site web, en générale de la façon suivante : http://www.exemple.com/robots.txt. Ce fichier contient donc des informations spécifiques que le robot va analyser en priorité avant d'analyser tous les autres fichiers du site. Si ce fichier robots.txt n'existe pas, alors les robots sur le web assument que l'administrateur du site ne souhaite pas lui donner d'instructions spécifiques et il va donc analyser l'intégralité du site.

Le fichier robots.txt va permettre de donner aux robots des instructions pour ne pas analyser certains fichiers ou répertoires lors de l'analyse du site. Cela est généralement relié à un désir de l'administrateur de garder privées certaines informations, à la croyance que certains répertoires ne seraient pas pertinents pour les moteurs de recherche et ne devraient pas être indexés, ou encore à la nécessité d'exclure certaines données d'une application à l'indexation du site.

De plus le fichier robots.txt a une origine unique, un seul domaine. Cela suppose que pour un site internet contenant plusieurs sous-domaines ( a.exemple.com et b.exemple.com) il faudra créer autant de fichiers robots.txt qu'il y a de sous-domaines. De plus, chaque protocole spécifique (http://www.exemple.com et https://www.exemple.com sont deux protocoles différents) nécessite son propre fichier robots.txt

robots-txt1

Comment bien optimiser le fichier robots.txt pour votre site ?

Si vous n'avez pas encore de fichier robots.txt, il serait temps d'en créer un pour votre site. Pour vous faciliter la tâche, vous pouvez utiliser certains sites de générateurs de fichier robots.txt existant sur le web qui peuvent vous aider. Cela vous permettra de créer un fichier robots.txt simple mais efficace. Vous n'avez ensuite qu'à uploader ce fichier sous le répertoire principal de votre site web, les robots vont faire le reste !

Si vous voulez plutôt configurer de manière adéquate avec vos objectifs de référencement, vous pouvez le faire vous-même si vous suivez ce qui suit dans cet article ! Avant toute chose, veillez à ce qu'il n'y ait pas d'erreur dans l'indexation de votre site par les robots de Google et autres. Pour cela il vous suffit d'ouvrir votre compte Google Search Console et de regarder le rapport consacré à l'indexation. Google Search Console est un outil indispensable pour améliorer le référencement de votre site et il est important de connaître ses principales applications.

Cela vous permettra de savoir dans un premier temps si votre site a été l'objet d'erreur d'exploration, ce qui pourrait nuire à son référencement.

Le fichier robots.txt est composé de trois commandes principales qui gèrent des conditions d'exploration. La première, User-agent : permet d'indiquer quel est le robot auquel on pose des règles. Il peut s'agir d'un robot en particulier ou de n'importe quel robot. Ensuite, les deux autres commandes Allow et Disallow gèrent les conditions d'accès ou de restriction à vos répertoires.

Si vous voulez donner accès à l'ensemble de votre site aux robots il suffit d'écrire dans votre fichier robots.txt la commande suivante :

User-agent : *

Disallow :

User-agent : *

Allow : /

Si vous voulez désactiver l'indexation d'un de vos répertoires, il vous suffit d'écrire :

User-agent : *

Disallow : /dossier/

Ou encore si vous voulez empêcher Google d'indexer un dossier sur mobile, excepté un fichier :

User-agent : Googlebot-Mobile

Disallow : /dossier1/

Allow : /dossier1/fichier.html

Attention, si vous créez une commande spécialement dédiée à un robot (dans le dernier exemple, Googlebot-Mobile), ce robot en question ne va pas tenir compte des autres commandes concernant tous les robots (User-agent : * ), il va uniquement suivre la commande dans laquelle il est désigné. Au besoin, répétez les règles de votre commande globale ( user-agent : *) dans la commande spécifique au robot.

Vous pouvez aussi enlever de l'indexation certaines URL via le fichier robots.txt. Cependant, ces pages peuvent quand même apparaître seulement avec l'affichage de l'URL sans données supplémentaires. Pour éviter cela, vous pouvez plutôt utiliser des meta tag robot noindex pour être sur de ne pas indexer les pages en question. Pour ce faire, vous pouvez simplement rajouter des méta-tags dans l'entête HTML de votre page :

<meta name="robots" content= "noindex,nofollow"> Cette commande indique que la page ne sera pas indexée et ses liens ne seront pas suivi par le robot. Attention, si vous utilisez ces tags mais ajouter aussi la commande dans le fichier robots.txt, cela va activer en premier la commande du fichier robots.txt, le robot ne va pas analyser la page et donc ne va pas lire vos méta-tags. L'URL pourra alors toujours apparaître dans les résultats.

Vous avez aussi la possibilité d'indiquer l'adresse de votre XML Sitemap (fichier de l'arborescence de votre site internet), ce qui va augmenter la performance de l'indexation et vous garantir que tout votre contenu important sera indexé. Cette option n'est généralement pas nécessaire sur les petits sites bien structurés, où le robot de Google ou autre n'aura aucun mal à tout analyser.

Crawl-delay : Vous pouvez utiliser la commande crawl-delay pour retarder l'exploration de votre site par le robot. Nous vous conseillons de ne pas changer le crawl de Google qui est le moteur de recherche avec les plus fortes parts de marché. Vous pouvez cependant indiquer aux robots que vous donnez un retard ( en secondes) de 2 ou 10 à l'indexation par un moteur de recherche en particulier, qui serait moins pertinent selon vous.

De manière générale, il est important de créer des URL simples pour vos pages, sans quoi les robots auront plus de mal à indexer certaines pages. Pour d'autres conseils et astuces supplémentaires, nous vous conseillons de visiter un site spécialement dédié aux fichiers robots.txt

Ne bloquez pas les fichiers CSS et JavaScript

Même si le mot d'ordre avait été donné il y a quelque temps, Google envoie désormais des messages aux administrateurs en leur signalant que l'accès aux fichiers CSS et JS dans leur fichier robots.txt est bloqué. En effet, depuis que le robot de Google analyse une page de la même façon qu'un internaute la verrait, la désactivation de ces fichiers pénalise grandement le référencement de la page. Attention donc à bien vérifier que ces fichiers ne sont pas dans un répertoire non-permis dans votre fichier robots.txt

robot-txt-css-js

Vous l'avez donc compris, le fichier robots.txt est indispensable à ajouter à votre domaine pour optimiser votre SEO. N'oubliez pas qu'un fichier robots.txt mal configuré peut mal indexer certaines pages et vous faire perdre des revenus car ces pages ne seront plus visibles.