Je tenais à vous présenter une application open-source développé par Jean-Benoît Moingt aka Mr Watussi (très bon blog SEO orienté technique/PHP/logs/Apache) qui va vous permettre de suivre le crawl de GoogleBot sur vos sites, via une interface Web et sans avoir à aller trifouiller les logs en ligne de commande.
J’ai eu la chance de pouvoir tester ce script PHP Open-source en avant-première il y a quelques semaines avec quelques bêta-testeurs, je me devais bien de vous présenter cet outil!
Pourquoi analyser le comportement de GoogleBot?
Cet outil va vous permettre se savoir précisément où Google est passé sur votre site et vous permettra de répondre à un certain nombre de questions qu’un consultant SEO peut se poser:
– Les pages que je souhaite indexer sur Google sont elles crawlées?
– Les pages que je ne souhaite pas indexer sur Google sont elles également crawlées?
– Quel status HTTP est retourné à Googlebot pour les URL qu’il visite?
– Mes liens en Javascript sont ils suivis par Googlebot?
– Des URL dont je ne soupçonne même pas l’existence sont elles crawlées inutilement?
etc.
Googlebot consacre un certain temps CPU/jour pour chaque site Web qu’il visite. Si il visite des URL dupliquées ou des URL inutiles (générées par erreur à cause d’un CMS ou Plugin particulier), c’est autant de pages pertinentes qu’il ne visite pas pendant ce temps là.
La WatussiBox va donc vous aider à dompter GoogleBot pour qu’il visite votre site dans de conditions optimales.
Présentation de la Watussi Box
Cet outil va insérer chaque ligne de log Apache pour lesquelles le User-Agent est GoogleBot dans une base de données SQL. Cela va vous permettre d’avoir un historique des visites et de détecter d’éventuelles baisse du taux de crawl, ou problèmes d’accessibilité pour GoogleBot (les données de Google Webmasters Tools n’étant pas à jour et forcément précises).
Les principales fonctionnalités:
Suivi de crawl / Pages actives / Volume de pages / Analyse en temps réel / Évolutivité
Plutôt que de longs discours, voici une présentation complète de l’outil Watussi Box en vidéo par son créateur:
Mon avis: Ce script est une version simplifié de l’analyseur de logs qu’utilise Jean-Benoît. Il permet de déceler rapidement des incohérences dans vos liens et des fuites de crawl. L’interface n’étant pas très compliquée permet une prise en main rapide de l’outil. C’est une bonne base pour se familiariser avec l’analyse de crawl.
Le tableau de bord principal permet entre autre de voir d’un coup d’oeil le nombre de pages crawlées, le nombre de pages crawlées/jour, le nombre de pages total ayant été crawlées.
Vous pourrez rapidement détecter les pages les plus crawlées pour éventuellement y placer des liens vers des pages récentes, mais aussi trouver des junkpages pour lesquelles il faudra bloquer l’accès. Ce qui me parait le plus pratique, c’est le traitement des code HTTP renvoyés, ça a provoqué en moi l’envie de corriger rapidement de nombreuses 404 ou 301 plus d’actualités.
Installation de la Watussi Box
Vous devez disposer des éléments suivants:
– 1 base de données MysqL
– 1 serveur Web interpretant le PHP
Pour télécharger la Watussi Box, à savoir le 1er analyseur de logs SEO gratuit, c’est par ici: Watussi Box – Analyseur de logs
Merci encore à Jean-Benoît de partager ce script à la communauté des référenceurs!
J’en déduis que tu as réussi à l’installer en mode apache (et non PHP).
Quel serveur as tu ? Est ce que tu tournes sur une Release 2 OVH ? Car chez moi l’outil ne fonctionne pas en mode apache (OVH R2) du moins je ne suis pas parvenu à l’utiliser.
En mode PHP c’est moins intéressant, même si ça reste un excellent outil, moins fiable à mon sens et surtout, ça consomme nos précieuses milisecondes 🙂
Hello! Je ne pourrais pas te répondre car je n’ai rien chez OVH… Je suis chez Online/Dedibox. Ils brident peut être l’appel de #bin via customlog?
Salut Aymeric,
téléchargé !
On va regardé comment ça marche, comme je n’ai que des dédiés, on devrait pouvoir faire des choses sympas 🙂
merci à toi pour l’info et bonne année à toi au passage
Christian
Salut Christian, oui sur les dédiés, c’est clairement plus intéressant;) n’hésite pas à remonter tes impressions/suggestions à Jean-Benoît. Merci et belle année également au passage;)
Merci Aymeric pour la présentation de la Watussi Box! C’est, en effet, un excellent outil pour affiner son référencement naturel et rendre son site encore plus « consommable » par notre ami Google Bot.
C’est vrai qu’un site fluide et optimisé garantit une indexation rapide car facilitée par ce travail préalable.
Un script vraiment nécessaire que je vais prendre le temps de tester 🙂 Encore merci!
Bonjour Aymeric,
Merci pour ce script alléchant et plus important qu’il n’y parait au premier abord ! En effet, analyser le parcours des bots sur son page permet d’améliorer grandement l’indexation en éliminant tous les facteurs bloquants !
Salut Aymeric,
J’ai d’ores et déjà pu tester l’outil grâce à l’article d’appel de Jean-Benoit et je n’ai pas été déçu !
C’est pour moi un outil complémentaire bien pratique pour les raisons que tu as exposé ci-dessus.
Et en plus, c’est relativement simple à installer je trouve.
Par contre, je l’ai installé sur 2 mutualisés et j’ai donc retravaillé un peu le script pour qu’il gère automatiquement le RESPONSE_TIME et le RES_CODE. 😉
Hello Nicolas, comment gères tu le resp code sans passer via les logs?
Ca à l’air pas mal, c’est presque étonnant que le service soit gratuit.
Il traque uniquement GoogleBot, ou aussi les autres crawlers ?
Il faut modifier le script pour traquer les autres robots sur un mutualisé. Pour les dédiés, c’est au niveau de la configuration d’Apache qui appelle le script.
Super ! Et en open source…que demande le peuple ? Ah, une adresse mail tout de même ^^
Ce serait intéressant de créer un site bidon de test et on compare les différents résultats entre Watussi Box et GWT 🙂
C’est un beau boulot, ça a l’air bien abouti comme projet. Je teste ça rapidement aussi
Génial, surtout qu’en ce moment je me suis créé un petit script pour tracker les bots de Google…
Il va falloir que je teste celui là. En plus OpenSource, c’est génial pour un développeur de pouvoir voir du code d’un autre développeur 😉
@Nicolas Augé : pourrais tu partager tes modifs ?
Très simplement en parsant le header :
// Récupérer les en-têtes
$tab_res_code = get_headers($url);
$tab_res_code = explode( » « , $tab_res_code[0]);
$RES_CODE = $tab_res_code[1];
😉
Ah oui exact, merci du partage;)
C’est déjà fait, et les tendances sont bien les mêmes 😉
Si tu peux partager ce type de modifications, je modifierai le script et / ou la documentation.
Dans le code je filtre sur l’user-agent Googlebot et sur les IPs en 66.249.x.x
Si tu veux tracker autre chose, il faut modifier le code.
Petite question à l’auteur du script.
Avec ton recul sur cette outil, quel est pour toi un ratio « normal » de Pages actives/inutiles ? la loi de Pareto s’applique sur ce cas là également ? soit 80/20 .
Enfin un script d’analyse abouti !
Ce qui est vraiment pas mal c’est la possibilité de voir tout de suite les pages existantes qui sont crawlées alors que je ne le souhaite pas … Et je confirme que l’on peut l’adapter sans problème à quasiment n’importe quel autre bot en changeant l’appel du script
Salut,
Pour info, j’ai contacté Jean-Benoit et lui ai envoyé toutes mes modifs donc il pourra faire une MAJ si besoin est ! 😉
Par contre, je viens de m’apercevoir que le script sous mutualisé me ralentissait énormément l’affichage de la page donc, je pense malheureusement ne pas continuer à l’utiliser sur ce genre de serveur. :-/
Merci pour l’article qui présente bien ce tools. Ça à l’air très prometteur.
Je pense l’installer sur des sites de prod, ça va devenir un bon indicateur pour comprendre la raison d’une indexation longue etc…
J’espère qu’il fera l’affaire sur un mutu, sinon je prendrais un dédié de la boite.
Au plaisir.
Merci beaucoup pour ce cadeau SEO de la nouvelle année 2013
Je vais tester cette box cette semaine semaine sur mes sites !!
Bonne année à tous!
mais il est juste génial ce Mr Watussi ! 😀