Tiens Googlebot, des fichiers logs rien que pour toi

Je préfère vous prévenir, cet article sera très bref. Pas trop de temps mais vous allez vite comprendre, j’en suis persuadé. Je suis en mode « Googlebot est mon ami ». J’aime rentrer en contact avec ce fou de liens et ingurgiteur de contenus, lui faire voir certaines choses et le guider au mieux sur les sites que je gère. Pour ça, j’ai besoin de logs!

Apache et les logs

Ce qui m’intéresse dans les logs pour le coup, ça sera Googlebot le dégénéré (parfois, il crawle n’importe quoi, genre la page 34 de la catégorie truc, sous-optimisée anti-pinguoin au possible). Plutôt que de faire des exports réguliers avec des commandes Shell du type :

# cat/var/log/apache2/yapasdequoi.log | grep Googlebot &gt; /home/gasymagnifik/googlebot.log

avec des fichiers .gz dans tous les sens,
Je me suis dit que j’allais configurer Apache pour générer des logs, rien que pour Googlebot. Le fichier log plus léger pourra être exploité directement par la suite. Voilà le contenu à rajouter dans le fichier de configuration de mon hôte virtuelle:

SetEnvIf User-Agent ".*Googlebot/2.1.*" copainggbot
LogFormat "%a %t \"%r\" %&gt;s %b \"%{Referer}i\" \"%{User-agent}i\" \"%{Accept-encoding}i\"" variables
CustomLog /var/log/apache2/googlebot.log variables env=copainggbot

Et après?

Il ne vous reste plus qu’à exploiter toute ces données avec un analyseur de logs… Vous pourrez remonter rapidement les erreurs 404, 500 mais également voir les segments du site les plus crawlés et les pages profondes qui ne le sont pas (http://www.watussi.fr/analyse-de-logs-identifiez-les-pages-non-crawles-par-googlebot).

La suite au prochaine épisode!

Répondre

28 juin 2012
Aurélien

Excellent, merci !
Répondre

28 juin 2012
Fred

Merci bien pour le partage ! Je vais tester ca !
Répondre

29 juin 2012
stone

Magnifik !
Répondre

29 juin 2012
Michele

Très pratique, merci pour l’astuce.
Répondre

29 juin 2012
Tristan

Merci pour le tuyau !
Répondre

29 juin 2012
Jeromeweb, webmaster liens geeks

Merci de ces astuces, c’est simple mais efficace!
Répondre

29 juin 2012
Le Juge

Hyper pratique ton petit truc pour les sites a gros volume

merci Americ!
Répondre

2 juillet 2012
vince

Joli Aymeric, merci 😉
Répondre

2 juillet 2012
TiPi Com and Web

Merci pour le tuyau, c’est toujours sympathique d’optimiser ses logs 😉
Répondre

3 juillet 2012
Jed

Une astuce très utile, mais sur un mutualisé est ce possible de trouver une parade également?
L’article va servir pour les chanceux qui possède un tel hébergement
Répondre

3 juillet 2012
Soul

C’est intéressant, j’y avais jamais pensé 😉
Répondre

17 juillet 2012
Hyadex

Le fait de traquer les pages qui ne sont pas crawler par google est une excellente idée. Cela doit permettre de modifier cette page, sans oublié d’améliorer son référencement.
La technique indiquée semble parfaite, sauf q’uil doit falloir un serveur dédié pour l’appliquée…

Tiens Googlebot, des fichiers logs rien que pour toi

Apache et les logs

Et après?

Aymeric

12 commentaires

Laisser un commentaire Annuler la réponse