Les principaux moyens de supprimer une page de l’index des moteurs de recherche :
- Balises Noindex
- Fichiers Robots.txt
- Suppression d’une page
- Outil de suppression d’URL dans Google Search Console
- Balises canoniques (rel=”canonical”)
Quel type de contenu n’est pas souhaité par Google ?
Il existe plusieurs types de pages qui ne doivent pas être indexées et affichées dans Google et d’autres systèmes.
- Pages d’atterrissage promotionnelles
- Pages de remerciements
- Pages d’administration
- Résultats de la recherche sur le site web
Plus de pages sont cachées dans Google en raison de :
les pages dupliquées – afin que les autres versions du même contenu n’apparaissent pas dans les recherches ;
cannibalisation des mots clés – lorsque des pages identiques d’un site sont en concurrence les unes avec les autres pour les requêtes de recherche ;
budget d’exploration excessif – lorsque Google passe trop de temps à rechercher des pages peu pertinentes au lieu d’indexer le contenu important.
Comment Google sélectionne-t-il les pages pour les résultats de recherche ?
Avant de parler des avantages et des inconvénients de l’une ou l’autre méthode de suppression des pages de Google, il ne serait pas inutile de décrire brièvement le processus par lequel Google trouve et classe les sites.
Le crawling est un mécanisme par lequel Google sélectionne le nouveau contenu en utilisant des crawlers ou des robots de recherche. Google examine les différentes pages d’un site Web, clique sur les liens internes et trouve de nouvelles pages. Pour chaque site, le budget de crawling ou la quantité de ressources impliquées est strictement limité.
Indexation – dès que Google trouve le contenu souhaité, une copie de celui-ci est enregistrée dans ce que l’on appelle un index.
Le classement, ou l’ordre dans lequel les pages web sont classées dans les résultats de recherche. Un utilisateur saisit une requête dans Google. Le moteur de recherche l’évalue, le compare à ce qui se trouve déjà dans l’index et donne les meilleurs résultats disponibles.
Google applique toutes sortes de calculs et d’analyses (algorithmes) pour déterminer quelles sont les pages les plus pertinentes, et les place plus haut.
Comment pouvez-vous influencer les résultats de recherche de Google ?
Balises Noindex
Il s’agit essentiellement de demander à Google de ne pas indexer certaines pages, c’est-à-dire de ne pas les afficher dans les résultats de recherche. La prochaine fois qu’un robot de recherche explorera une page comportant cette directive, il la supprimera de l’index ou, en d’autres termes, des résultats de recherche.
2 façons d’ajouter des balises noindex :
Ajoutez-les au code HTML de la page.
Configurez l’en-tête noindex pour renvoyer un noindex dans la réponse HTTP.
Les balises Noindex ajoutées au HTML ressemblent à ceci :
Avec les systèmes CMS tels que WordPress, vous pouvez ajouter des balises noindex aux pages, même sans connaissances techniques.
Il est important de se rappeler qu’un robot d’exploration de moteur de recherche doit scanner la page pour détecter la balise noindex et supprimer la page des résultats.
Quand utiliser noindex. Cette option est intéressante si vos pages remplissent une fonction particulière mais que vous ne souhaitez pas qu’elles apparaissent dans Google.
Robots.txt
Le fichier Robots.txt est un fichier texte qui indique aux robots des moteurs de recherche ce qu’ils doivent faire lorsqu’ils arrivent sur votre site. Ils peuvent être utilisés pour indiquer au moteur de recherche les parties de votre site qu’il est autorisé à traiter.
Si vous utilisez le fichier robots.txt pour bloquer certains répertoires, tels que /admin/, cela signifie que Googlebot ou les autres robots des moteurs de recherche ne visiteront même pas ces pages. De cette façon, le budget de crawling sera consacré à un contenu plus important.
N’oubliez pas qu’en bloquant le chemin d’accès à la page à l’aide des fichiers robots.txt, vous empêchez l’enregistrement de la page, mais ce qui a été précédemment enregistré n’est pas supprimé ou modifié. Si la page figure déjà dans les résultats de recherche, cela signifie que Google l’a traitée et indexée.
Si vous devez supprimer la page, la bloquer avec robots.txt ne vous aidera pas. Vous devez d’abord ajouter une balise noindex pour supprimer la page de l’index. Et seulement après sa suppression, vous pouvez déjà bloquer la page dans le fichier robots.txt.
Quand bloquer des pages dans le fichier robots.txt. Lorsqu’il existe des chemins de page spécifiques ou des sections volumineuses du site que vous ne voulez pas que Google explore.
Si une ou plusieurs pages apparaissent déjà dans la recherche, vous devrez d’abord leur ajouter une balise noindex et attendre qu’elles soient retirées de l’index avant d’appliquer robots.txt.
Retrait de la page
La solution simple consiste à supprimer la page, avec un code de réponse 404 ou 410. Les deux servent la même fonction. En conséquence, Google supprimera la page de l’index lors de son prochain crawl. Selon John Mueller, un code 410 peut être un moyen plus rapide de supprimer une page.
Du point de vue du référencement, si la page est utile (par exemple, si elle génère du trafic ou des liens retour), il est logique de mettre en place une redirection 301 vers une page pertinente afin de préserver le poids des liens du site.
Traduit avec www.DeepL.com/Translator (version gratuite)