Améliorer le fichier robots.txt pour un meilleur référencement

WordPress possède de nombreux avantages en terme de SEO. Au fil des années, l’optimisation, poussée par les développeurs, a fait en sorte que les utilisateurs de WordPress profitent des avantages du référencement.

Néanmoins, afin de profiter pleinement des avantages de ce fichier, les utilisateurs ont également besoin de faire quelques ajustements pour s’assurer que leur site est optimisé pour les moteurs de recherche.

Robots.txt: ce qu’il faut savoir

Améliorer robots.txt
Crédit Photo robot : Boians Cho Joo Young

En gardant cela à l’esprit, aujourd’hui, nous allons nous concentrer sur la façon d’améliorer votre fichier « robots.txt » afin d’en tirer profit pour le référencement.

Qu’est-ce que le fichier robots.txt?

Généralement, les utilisateurs de WordPress entendent, à un moment ou à un autre, parler du fichier « robots.txt », mais la plupart du temps, il est utilisé tel quel, sans aucune modification. Bien que la version, par défaut, fonctionne bien, en modifiant le fichier « robots.txt » vous pourrez mieux tirer parti du SEO.

creer fichier robots.txt
Crédit Photo: Boians Cho Joo Young

Le fichier « robots.txt » est comme une passerelle. Chaque fois que les robots des moteurs de recherche visite un site, ils accèdent au fichier « robots.txt » en premier.

Ce fichier indique aux robots des moteurs de recherche les pages à visiter et à indexer, mais surtout, celles qui ne doivent pas être indexées.

Robots.txt est un standard web développé par Robot Exclusion Protocole (REP), afin de réglementer le comportement des robots et l’indexation des moteurs de recherche.

En bref, si certaines pages du site ne doivent pas être vues et indexées par les moteurs de recherche, le fichier « robots.txt » est utilisé pour veiller à ce que les robots ne le fassent pas.

Sachez toutefois que les moteurs de recherche ne sont pas obligés d’adhérer aux ordres contenus dans le fichier « robots.txt », ils peuvent choisir de les contourner, mais en général ils ne le font pas.

Peut-on cacher le fichier robots.txt?

Non, vous ne pouvez pas!

« robots.txt » est un fichier mis à la disposition du public. Tout le monde peut vérifier quelles sont les parties cachées d’un site, par le webmaster.

Il est facile d’accéder au fichier « robots.txt », il n’y a pas d’URL cachée. Il suffit de taper le nom de domaine et d’ajouter « robots.txt » à la fin de l’URL (sans les guillemets).

Par exemple: http://votredomaine.fr/robots.txt

Certains experts SEO considèrent que cacher des informations confidentielles, disponibles sur le site, au moyen du fichier « robots.txt » n’est pas une méthode recommandée, parce que les robots des moteurs de recherche peuvent toujours y accéder, même si vous mentionnez le contraire dans le fichier « robots.txt ».

Des façons meilleures et plus sûres doivent être utilisées, telles que la protection par mot de passe.

Structure d’un fichier robots.txt

Habituellement, pour WordPress, un fichier « robots.txt », de base, ressemble à ceci:

User-agent: *
Disallow: /wp-admin/

L’astérisque (*) placé après « User-agent » signifie que tous les moteurs de recherche sont autorisés à indexer le site. « Disallow » interdit aux moteurs de recherche d’indexer certaines parties du site comme « /wp-admin« , « /plugins » et « /thèmes« , parce qu’ils contiennent des informations sensibles et si leur indexation était autorisée, cela mettrait le site en danger.

Alors, quelles modifications peut-on apporter au fichier robots.txt, de base, pour améliorer le SEO?

Voyons…

Disallow

Disallow signifie rejeter, et vous rejetez les demandes d’accès faites par les moteurs de recherche.

Une seule URL avec l’étiquette « Disallow » ‘est autorisée par ligne. De même, ne répétez jamais uneURL.disallow

Rappelez-vous que le blocage d’une page, d’une catégorie ou d’un article avec le fichier « robots.txt » signifie seulement que le moteur de recherche ne pourra pas l’indexer.

Cependant, cela ne signifie pas que les moteurs de recherche n’indexeront pas les pages et ne les montreront pas dans les résultats, ils le feront. Vous pouvez toutefois refuser cette possibilité avec la commande de la prochaine étape, ci-dessous.

Meta Noindex

Voici la méthode la plus sûre et la plus recommandée pour empêcher les moteurs de recherche d’indexer et d’afficher certaines pages dans les résultats de recherche.

Comment ajouter la balise Meta Noindex?

Il existe différentes façons. Le plugin WordPress SEO by Yoast est utilisé comme une référence. Si vous voulez créer un site qui adhère aux principes du SEO, utilisez ce plugin.

Le plugin de Yoast vous permet d’ajouter la balise Meta Noindex de deux façons:

  • Au niveau de la Page/de l’Article

Lorsque vous ajoutez un article ou une page, vérifiez les paramètres du plugin WordPress SEO by Yoast, dans la section « Avancé », juste sous l’article ou la page, vous trouverez une liste d’options pour les pages ou les articles.

Il suffit de sélectionner ‘Noindex‘ dans la zone « Meta Robot Index« , et ensuite publier l’article ou la page, ni page, ni article ne sera indexé par les moteurs de recherche. Simple, n’est ce pas?

  • Au niveau du site

Dans la section ‘Titre & Metas » du plugin WordPress SEO by Yoast vous trouverez un onglet Taxonomies.

Si vous souhaitez, par exemple, que les catégories, Etiquetytes, fichiers multimédias, liens d’affiliation, etc. soient en « noindex », c’est votre choix.

SEO-by-Yoast-Taxonomies

Vous pouvez complètement contrôler l’applicabilité de la balise Meta Noindex en utilisant ces deux méthodes.

Les liens nofollow

Vous pouvez ajouter « nofollow » à vos liens pour empêcher les moteurs de recherche d’indexer et d’afficher les liens, mais encore une fois, ce n’est pas une stratégie à toute épreuve. Les moteurs de recherche peuvent malgré tout découvrir les liens « nofollow« .nofollow

Pour ajouter le paramètre « nofollow« , voilà comment faire:

<a href= »URL » rel=’nofollow’>Ancre du Texte</a>

Enregistrer la page ou l’article et le lien aura le paramètre « nofollow ».

Le plan du site doit-il être ajouté au fichier robots.txt?

Une bonne pratique de référencement est d’ajouter le lien, pointant vers le plan de votre site, dans le fichier « robots.txt ». Dans l’exemple précédent, le plan du site n’a pas été inclus, mais si vous vérifiez le plan du site d’un blog Blogger, il apparaîtra ainsi:

Blogger sitemap

Il est donc, fortement recommandé d’ajouter le plan du site à votre fichier « robots.txt ».

Pour ce faire, dans WordPress, vous devez modifier le fichier « robots.txt ». Vous pouvez ajouter un seul plan du site, ou plusieurs petits plans(un par ligne). Une fois fait, enregistrez le fichier et vous avez terminé.

Comment modifier le fichier robots.txt?

Vous pouvez accéder au fichier robots.txt en utilisant les Outils Google pour les Webmasters.

Connectez-vous aux Outils Google pour les Webmasters, choisissez le site et cliquez sur « Exploration ». Dans le menu déroulant, vous verrez « Outil de test du fichier robots.txt ». Collez le code que vous souhaitez inclure dans votre fichier, puis cliquez sur « Tester ». Si le bouton affiche « Approuvé », il vous suffit de créer un fichier « robots.txt » et le charger sur votre site.

Outil-de-test-du-fichier-robots.txt

Pour ce faire ouvrez le bloc note de Windows, collez le code validé par Google, et enregistrez le fichier en le nommant « robots.txt ». Attention à bien vérifier l’emplacement où vous enregistrez le fichier, car il va falloir le transférer sur votre site.

Ouvrez votre logiciel FTP (ex:Filezilla) et transférez le fichier à la racine de votre site. Si vous ne possédez pas de logiciel FTP, vous pouvez utiliser le gestionnaire de fichiers de votre compte d’hébergement et charger le fichier à la racine de votre site.

Exemple de fichier robots.txt idéal

Voici un exemple de fichier « robots.txt » idéal:

User-agent: *

Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/

User-agent: Mediapartners-Google*
Allow: /

User-agent: Googlebot-Image
Allow: /wp-content/uploads/

Sitemap: http://www.votresite.fr/sitemap.xml

Le code ci-dessus est une version de base d’un fichier « robots.txt » qui fonctionne pour la plupart des sites WordPress.

Si vous souhaitez plus de détails sur les différentes commandes qui peuvent être utilisées dans le fichier « robots.txt », vous pouvez consulter la page « En savoir plus sur les fichiers robots.txt » dans les Outils Google pour Webmasters.

Conclusion

Optimiser le fichier « robots.txt » devient inévitable au fur et à mesure du développement d’un site. Vous ne voulez pas que tout soit visible et accessible et, pour ce faire, certaines méthodes doivent être employées. La modification du fichier « robots.txt » est l’une d’entre elles.

J’espére que ce petit tutoriel aura été instructif. Si vous avez des doutes ou des questions, vous pouvez m’en faire part dans la section commentaire, je serai heureux de répondre.

séparateur de texte

Si cet article vous a été utile, Partagez le que d’autres en profitent. Merci!

Publié à l'origine le : 12 mai 2015 @ 13 h 45 min

Pour compléter votre lecture.

Le webmarketing, et par extension le marketing, sont des techniques commerciales qui visent à améliorer la rentabilité d’une entreprise. Il...