Analyse de log SEO : Étude de cas avec Screaming Frog SEO Log File Analyser

Dans cet article, je vais vous présenter une étude de cas d’analyse de log suite à la refonte du site trimardeau.com.

Lorsque l’on met en place une stratégie de référencement naturel, il est important de suivre l’activité des robots de Google sur le site internet, pour cela, il est possible d’analyser les logs serveurs afin de pouvoir suivre à la trace des pages et les ressources qui ont été visités par les visiteurs et les robots, en particulier par les Google bot.

L’analyse de log permet d’identifier rapidement les pages 404, les pages les plus crawlées par Google et vous permet de mettre des actions en place afin d’optimiser votre Crawl Budget. Si vous souhaitez plus d’information sur ce qu’est un log, pour vous consulter mon article dédié : analyse de log SEO : Allez plus loin dans l’optimisation de votre site.

Je vais vous présenter étape par étape les actions à réaliser afin de réaliser une analyse de log SEO rapide.

Pour ce tutoriel, je vais utiliser le logiciel Screamingfrog SEO Log File Analyser. Le logiciel existe en version gratuite et en version payante, la différence principale entre les deux versions étant que la version gratuite est limitée à 500 lignes de log.

Comment récupérer les logs serveur ?

La première étape consiste à récupérer les logs d’accès au serveurs L’emplacement de ces fichiers dépend de la configuration de votre hébergement.

Emplacement des logs sur un serveur dédié avec apache2

Si vous utilisez un hébergement dédié utilisant apache2, vous trouverez les logs sur votre serveur. Pour les récupérer, vous aurez besoin de vous connecter en SSH et de télécharger les fichiers. Par défaut, les fichiers logs se trouvent à l’emplacement suivante :

/var/log/apache2/

Il vous faudra alors télécharger les fichiers comportant .access.log, en cas de doute, je vous conseil de demander les fichiers directement à votre administrateur système.

Récupérer les logs sur o2switch

Si vous possédez un hébergement mutualisé chez o2switch vous pouvez récupérer vos logs avec vos accès FTP. Les logs se trouvant dans le dossier « /logs » se trouvant à la racine de votre hébergement. Téléchargez simplement tous les fichiers correspondant à votre site internet.

Pour les autres plateformes d’hébergement, vous pouvez vous rapprocher du support technique ou bien de la documentation en ligne.

Importer les fichiers logs dans Screaming Frog Log Analyser

Pour commencer, ouvrez Screaming Frog Log File Analyser et cliquez sur le bouton « + new » se trouvant dans la barre du haut.

Vous pourrez alors voir une nouvelle fenêtre « New Project Configuration ». Dans notre exemple, nous allons uniquement rentrer le nom du projet, ensuite, cliquez sur « OK » en bas à droite de la fenêtre.

Votre projet est maintenant créé, il va falloir télécharger les fichiers que vous avez récupéré sur votre serveur. Pour cela, vous pouvez cliquer sur le bouton « Import » se trouvant dans la barre du haut ou tout simplement effectuer un glissé-déposé dans la fenêtre.

À noter que vous aurez la possibilité d’ajouter de nouveaux logs serveurs à votre projet plus tard afin de garder un historique du passage des robots.

Si votre fichier comporte des URLs relatives et non pas des URLs absolues, il vous sera demandé d’entrer l’URL de votre site internet, si c’est le cas, rentrez l’URL (sans le / à la fin) et cliquez sur « OK for All Files ».

Vous verrez alors apparaitre une fenêtre de chargement. Attendez que le chargement soit fini.

Résumé de l’activité des bots

Une fois le chargement des logs terminé, vous vous retrouverez sur le tableau de bord de Screaming Frog SEO Log File Analyser. Dans le cadre de notre étude de cas, nous allons sélectionner uniquement les robots de Google. Pour cela, cliquez sur la liste déroulante « All bots » se trouvant en haut à droite et sélectionnez « All Googlebots ».

Voici une rapide présentation de cet écran :

  • La partie se trouvant en haut à gauche présente différentes statistiques comme par exemple le nombre d’URL unique crawlées par les robots de Google, le nombre de fois où les robots ont accédé à votre site internet, etc.
  • Le bloc « Response Code » vous présente un graphique avec les différents codes de réponse renvoyés par votre serveur. Cela vous permet d’identifier rapidement les problèmes sur votre site. Par exemple, si vous voyez une hausse des pages 404 ou encore des erreurs 500, il y a des actions à prendre en urgence afin d’améliorer votre référencement SEO.
  • Le bloc « Events » représente le nombre de fois où les robots de Google ont parcouru votre site.
  • Enfin, le dernier bloc « URLs » correspond au nombre d’URLs uniques crawlées par les Google bots.

Pour la suite, nous allons nous rendre sur le détail des URLs crawlées par les robots. Pour cela, cliquez sur l’onglet « URLs » se trouvant dans la barre de navigation au dessus des quatre graphiques.

Détail des URLs

Vous arrivez alors sur un tableau avec le détail des URLs

  • Row : Numéro de la ligne
  • URL : URL à laquelle le robot a accédé.
  • Last Response Code : La dernière réponse renvoyée par le serveur.
  • Time Of Last Response : Date a laquelle Google bot a accédé à cette page pour la dernière fois.
  • Content Type : Le type de fichier
  • Average Bytes : La taille de la ressource renvoyée par le serveur.
  • Average Response Time : Il s’agit du temps qu’a mis le serveur avant de renvoyer la ressource, cela permet d’analyser le temps de chargement du site internet, mais tous les logs ne sont pas configurés pour afficher cette valeur. Si la valeur n’est pas renseignée, la colonne indiquera 0, comme c’est le cas ici.
  • Num Events : Le nombre total de fois où les robots ont accédé à la page sur la période.
  • All Googlebots : Le nombre total de fois où les robots de Google spécifiquement ont accédé à la page sur la période.
  • Googlebots : Le nombre total de fois où la version Desktop des robots de Google ont accédé à la page sur la période.
  • Googlebots Smartphone : Le nombre total de fois où la version Mobile des robots de Google ont accédé à la page sur la période.

Identifier les pages 404 grâce aux logs

Avec cette liste, la première chose que nous pouvons faire est de rechercher de potentielles pages 404. Pour cela, nous allons trier le tableau en fonction du « Last Response Code », pour cela il vous suffit de cliquer sur l’entête de la colonne.

Vous voyez désormais apparaitre les erreurs 400 à 499 en haut de la liste. Il ne vous reste plus qu’à les traiter :

  • Si la page existe à une autre adresse ou bien qu’une autre page est cohérente, vous pouvez mettre en place une redirection 301.
  • Si la page n’existe plus et n’a pas vocation à revenir, vous pouvez mettre en place une page 410 gone pour indiquer à Google que cette page n’existe plus et n’a pas vocation à revenir.
  • Si la page ou le fichier devrait exister, vous pouvez le recréer ou recréer la page.

Améliorer votre Crawl Budget grâce aux logs

Une autre action rapide a mettre en place grâce aux logs est de vérifier que les ressources crawlées par Google sont bien celles que vous souhaitez. Pour cela, nous allons trier le tableau par « Num Events », afin d’identifier les ressources les plus visitées par les Google bots.

Dans cet exemple, on voit que la page la plus visitée est le fichier /ads.txt, s’agissant d’un fichier utilisé par les régies publicitaires, il convient de le créer.

Un autre point intéressant que le fichier index.js du plugin Recaptcha est la troisième ressource la plus visitée par les robots. Ce fichier ne présentant pas d’intérêt pour le SEO, nous devons demander à aux robots de ne pas accéder à ce fichier. Cela se fait en modifier le fichier robots.txt et en ajoutant une directive Disallow à la fin du fichier.

Disallow: /wp-content/plugins/contact-form-7/modules/recaptcha/

Cette directive permet d’indiquer aux robots qu’ils ne doivent pas visiter cette page.

Attention, il est important de ne pas bloquer les ressources CSS et Javascript importantes pour le site. En effet, les robots de Google peuvent afficher le site internet comme un navigateur et s’il n’ont pas accès à ces fichiers, cela risque de poser des soucis au niveau du rendu et donc d’être néfaste à votre référencement.

Les logs peuvent vous donner de nombreuses autres informations, mais intégrer ces deux premières routines vous permettront d’améliorer drastiquement votre référencement. Pour les besoins de ce tutoriel, nous nous arrêterons là, mais n’hésitez pas à aller plus loin dans l’analyse de log pour optimiser votre référencement naturel.

Publié le 7 juin 2023
Besoin d'aide pour votre SEO ?

Vous souhaitez améliorer vos positions sur Google et générer du trafic qualifié à l’aide du référencement naturel SEO, nous sommes là pour vous accompagner.

Agence SEO
Nicolas Trimardeau
Depuis 2004, je parcours le web et fais des tests pour comprendre les algorithmes de Google. Je vous partage mon expérience du SEO et du SEA pour vous aider à exploiter correctement le pouvoir du plus grand moteur de recherche du monde.