Je préfère vous prévenir, cet article sera très bref. Pas trop de temps mais vous allez vite comprendre, j’en suis persuadé. Je suis en mode « Googlebot est mon ami ». J’aime rentrer en contact avec ce fou de liens et ingurgiteur de contenus, lui faire voir certaines choses et le guider au mieux sur les sites que je gère. Pour ça, j’ai besoin de logs!
Apache et les logs
Ce qui m’intéresse dans les logs pour le coup, ça sera Googlebot le dégénéré (parfois, il crawle n’importe quoi, genre la page 34 de la catégorie truc, sous-optimisée anti-pinguoin au possible). Plutôt que de faire des exports réguliers avec des commandes Shell du type :
# cat/var/log/apache2/yapasdequoi.log | grep Googlebot > /home/gasymagnifik/googlebot.log
avec des fichiers .gz dans tous les sens,
Je me suis dit que j’allais configurer Apache pour générer des logs, rien que pour Googlebot. Le fichier log plus léger pourra être exploité directement par la suite. Voilà le contenu à rajouter dans le fichier de configuration de mon hôte virtuelle:
SetEnvIf User-Agent ".*Googlebot/2.1.*" copainggbot LogFormat "%a %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-agent}i\" \"%{Accept-encoding}i\"" variables CustomLog /var/log/apache2/googlebot.log variables env=copainggbot
Et après?
Il ne vous reste plus qu’à exploiter toute ces données avec un analyseur de logs… Vous pourrez remonter rapidement les erreurs 404, 500 mais également voir les segments du site les plus crawlés et les pages profondes qui ne le sont pas (http://www.watussi.fr/analyse-de-logs-identifiez-les-pages-non-crawles-par-googlebot).
La suite au prochaine épisode!
Excellent, merci !
Merci bien pour le partage ! Je vais tester ca !
Magnifik !
Très pratique, merci pour l’astuce.
Merci pour le tuyau !
Merci de ces astuces, c’est simple mais efficace!
Hyper pratique ton petit truc pour les sites a gros volume
merci Americ!
Joli Aymeric, merci 😉
Merci pour le tuyau, c’est toujours sympathique d’optimiser ses logs 😉
Une astuce très utile, mais sur un mutualisé est ce possible de trouver une parade également?
L’article va servir pour les chanceux qui possède un tel hébergement
C’est intéressant, j’y avais jamais pensé 😉
Le fait de traquer les pages qui ne sont pas crawler par google est une excellente idée. Cela doit permettre de modifier cette page, sans oublié d’améliorer son référencement.
La technique indiquée semble parfaite, sauf q’uil doit falloir un serveur dédié pour l’appliquée…