35

Test de 5 méthodes de désindexation d’une page sur Google

supprimerpage HTMLPlusieurs techniques sont envisageables pour supprimer une ou plusieurs pages de l’index de Google: via Google Webmasters Tools? meta noindex? code d’erreur 410 ?
A priori elles sont toutes efficaces, mais combien de temps faut-il? Afin d’avoir plus d’informations sur le délai de suppression d’une page en fonction de la méthodologie utilisée, je lance un test sur cinq pages que Google va découvrir via cet article.

Indexation des pages par GoogleBot

Pour que ces pages soient vite crawlées, je vais insérer les liens vers 5 nouvelles pages directement dans cet article. Ensuite, vos ReTweets (que j’espère nombreux) renforcerons un peu l’importance de cette page pour que Googlebot se penche un peu plus sur les nouveaux liens qu’elle contient.

Voici nos petits liens avec des pages pleines de Lorem Ipsum. Pour qu’ils semblent encore plus importants aux yeux de Google, je vais les placer intext (bah oui il parait que ça serait un critère de qualité qu’ils disent « les gens du SEO »).

[placement de liens]Alors voici mon premier lien ancre non optimisée 1 parce que Pinguoin il est pas gentil même que ancre non optimisée 2! de toute façon, même si c’est la mort du SEO ancre non optimisée 3, je continuerais ma route avec Google ancre non optimisée 4 parce que Googlebot est mon ami pour la vie ancre non optimisée 5 d’abord. Bon allez, un petit dernier pour Vincent : ancre non optimisée 6[/placement de liens]

Test de 5 méthodes de désindexation

Quand ces pages auront été crawlées à plusieurs reprises, j’utiliserais une méthode de désindexation pour chacune d’entre elles. Voici les 5 techniques testées:
– page1.html: suppression de l’URL via Google Webmasters Tools
– page2.html: mise en place d’une erreur HTTP de type 404 (Not found)
– page3.html: mise en place d’une erreur HTTP de type 410 (Gone)
– page4.html: insertion du tag <meta name=robots content=noindex>
– page5.html: ajout d’un en-tête HTTP X-Robots-Tag:noindex

Edit du 20/06:
Ajout d’une sixième méthode via le robots.txt (via @PercevalSEo & @Jambonbuzz)
– page6.html: ajout d’une ligne Disallow: /page6.html dans le robots.txt

aymeric bouillat aime les bots

Pour connaître le temps nécessaire de ces différentes méthodes pour supprimer une page de l’index, je lancerais régulièrement via un cronjob des test d’indexation (scrap de SERP) avec la commande info:, puis je comparerais le délai entre la date du dernier crawl par Googlebot 2.1 et la suppression de la page dans l’index de Google. Pour être tenus informés des résulats de ce test: @aymerictwit. A bientôt pour la suite 😉

35 commentaires

  1. Sympa ce test, e vais suivre ce que ça donne. Néanmoins, il faudrait peut-être le répété plusieurs fois pour avoir des résultats vraiment très fiables.

  2. Sympa, j’ai pour ma part fait une analyse avec les même fins mais sur des techniques un peu différentes. Je surveillerai ton post et si je me décide à faire le bilan de mon test je le partagerai 😉

  3. Intéressant en effet, je me suis jamais posé la question du temps de disparition des pages de l’index. Parfois, il peut être assez long, malgré un signalement dans GWT.

    Par sur que le résultat sur un seul test soit réaliste par contre, comme le disait @Michele

  4. Hello Aymeric,

    Si ce n’est pas trop tard, ajoute le robots.txt à ton test si tu peux

    Si les paris sont ouvert, je mise sur GWT et 410 (puisque GWT ne peux pas supprimer une URL qui renvoie un code 200)

    • Alors là je ne suis pas d’accord du tout. On peut sans problèmes supprimer une page qui renvoie un 200 dans GWMT. Je le fais souvent pour les clients.

  5. Bonjour Aymeric,

    Ce test est intéressant mais comme évoqué dans le commentaire précédent, peut-être sera t-il nécessaire de le répéter pour obtenir plus de certitudes.

    amicalement

  6. Salut Aymeric !
    Je t’ai parlé de 3 autres méthodes mais trop tard apparemment :-(.
    Il y a la 301, la balise canonical (ces 2 là implique de faire pointer la page vers une autre page) et la « protection » des pages par mot de passe via le htaccess.
    Par contre, ces 3 méthodes ne sont pas les plus rapides à mon avis (surtout la canonical qui ne désindexe pas du tout à coup sûr).

    • Concernant la protection par mot de passe via htaccess, je la déconseille si vous voulez désindexer une page de façon temporaire car quand j’ai lancé mon blog, j’ai mis un htaccess avec mot de passe pour pouvoir faire mes modifs en ligne (une sorte de preprod quoi ^^) et quand je l’ai enlevé, le site a eu des gros problèmes d’indexation.
      J’avais beau faire pas mal de liens (commentaires de blogs, annuaires, CPs …) mes pages s’indexaient et se dés-indexées successivement. Seul le sitemap (que je n’utilise quasiment jamais) m’a permis de régler ce problème.
      Si ça peut servir à certains et si d’autres ont connu un problème similaire avec cette méthode, je vous écoute 😉

  7. Avec plus de 300 000 pages à désindexer illico presto sur un site bâti en carton, ce test va forcément me plaire ! :p

    D’instinct, je parierais aussi sur la suppression via GWT suivi de la balise noindex. Pour les 404 je suis plus sceptique : je constate souvent que Google doit y passer plusieurs fois pour comprendre enfin qu’il doit la supprimer pour de bon.

    Mais attendons les résultats 🙂

  8. De mon côté j’ai l’impression que GWT est plus rapide, j’ai pu désindexer tout un site en moins d’une journée. Après, peut être qu’en signalant une URL en particulier, c’est différent…

  9. Pour avoir supprimé manuellement une petite dizaine de pages via GWT sur un site a fort contenu et très souvent crawlé, les pages avaient disparues de l’index de Google dès le lendemain de la demande !

  10. Sympa ce test. Feras tu un nouveau billet pour les résultats ou tu éditeras cet article ?

    Pour ma part je mise sur GWT. Il y a des choses à gagner xD

  11. J’ai testé « unavailable_after: » dans l’entête HTTP google s’en fout royalement et continue d’indexer la page
    S’ il lui venait à l’idée d’écouter je préviendrais !

  12. Un test utile. Personnellement j’ai utilisé l’outil GWT il y a quelques semaines et les pages ont été désindexées en deux jours, c’était super rapide. Donc je recommande.

  13. Liens utiles mais je suis toujours pour l’outil GWT qui est rapide et très efficace

  14. De mon côté, j’ai toujours constaté que via GWT c’était plus rapidement pris en compte 😉
    J’ai tout de même hâte de voir les résultats

  15. Bonne idée ce test où je vois comme tout le monde (ou presque) que GWT sortira grand vainqueur…
    Par contre dans l’introduction, je pense qu’il aurait été utile de dire pourquoi on a besoin de désindexé une page ?

  16. Merci pour cet article intéressant, je vais utiliser tes méthodes et nous pourrons comparer nos résultats prochainement

  17. Tu abuses, tu publies ça le lendemain de ma soutenance sur le déchet numérique… J’aurai pu en parler ! 😀

  18. Pour la 404, par expérience, cela peut même prendre des mois….
    La 301 est très rapide si la redirection est pertinente. La 410 est la plus drastique (donc à manipuler avec soin quand il s’agit de l’automatiser, par exemple pour des suppressions de produits d’un site marchand). Quant au no-follow ou no-index, j’en ai vu passer un paquet dans l’index de google!

  19. Merci beaucoup pour cet article, malgré tout je pense qu’effectivement il est nécessaire de répéter l’expérience afin d’en tirer des conclusions plus fiables.
    Je vais faire l’expérience de mon côté afin que nous puissions comparer nos résultats.

  20. Bonjour. Cet article tombe très bien, je voulais savoir comment fait on. A tester.

  21. Merci pour ce test, j’ai hâte de voir les résultats que ça va ressortir.

    Personnellement j’utilise la redirection 301, mais une autre solution est peut être plus pertinente…

    A suivre !

  22. Récemment, j’ai utilisé une 410, c’est assez rapide et utilisable sur plusieurs dizaines de pages simultanément. La 301 d’accord mais il faut pouvoir rediriger vers quelque chose si on a 100 pages à supprimer il vaut mieux clairement indiquer à GG qu’elles n’existent plus !

  23. Avez-vous les résultats ? L’article datant du 19 juin, je pense que oui. A moins que google soit en vacances, mais j’y crois pas trop 😉

  24. Pour ce qui est de la 404, j’ai déjà essayé, c’et pas vraiment rapide pour la desindexation. Alors, ça donne quoi? Je crois quand même qu’on devrait avoir les résultats…

    • oui, je n’ai pas finaliser le script qui teste l’indexation toutes les 10 minutes. Je préfère avoir une sécurité sur un autre serveur aussi. D’ici début septembre, ça devrait être ok 😉

  25. Je cherchais justement un comparatif des méthodes de désindexation, mais le test n’a pas était fait ou du moins publié.

    Je voulais savoir si maintenant il a été fait ou toujours pas.
    En tout cas bonne initiative 😉

      • Ok pas de soucis.
        Du coup pour désindexer mes pages j’ai utiliser GWT et en quelques heures mes pages ont été supprimées des SERPs

    • Non malheureusement, je dois faire des modifications avant pour éviter en crash de log intempestif avec LogRotate, je fais au mieux!

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *