L’impact des pages 404 sur le SEO

Lors de la mise en place d’une stratégie de référencement naturel, la première chose que fait un consultant SEO est bien souvent d’analyser les logs du site internet afin de détecter de potentielles erreurs. Parmi ces erreurs, une des plus commune est la présence de page introuvables, aussi appelée page 404.

Pourquoi appelle-t-on les pages introuvables 404 ?

Afin de savoir pouvoir nous appelons les pages introuvables 404, rappelons quelques bases d’internet. Lorsque votre navigateur tente d’accéder à une page sur internet, celui-ci envoi une demande. Suite à cette demande, le serveur sur lequel est hébergé le site internet va envoyer du contenu et dans ce contenu un code. Plusieurs codes sont possibles, mais voici les bases :

  • Code 200 à 299 : tout c’est bien passé, la page existe.
  • Code 300 à 399 : la page est redirigé à une nouvelle adresse, le navigateur devra donc suivre cette redirection.
  • Code 400 à 499 : la page est introuvable, dans cet ensemble de code, le code 404 correspond à “Not found”, soit non trouvé. Nous pourrons aussi retrouver le code 410 gone, indiquant au navigateur que la page n’existe pas, car elle a été supprimée.
  • Code 500 à 599 : erreurs serveurs.

Ainsi, le nom de page 404 tire son nom du statut de la requête retournée par le serveur Web lorsque qu’un navigateur ou un robot de Google tente d’accéder à la page.

Comment détecter les pages 404 ?

Maintenant que nous avons fait le point sur ce qu’est une page 404, comment les détecter ? Pour cela il existe plusieurs méthodes, nous en aborderons trois ici.

Détecter les pages 404 avec les logs serveurs

La première méthode et bien souvent la plus fiable pour détecter les erreurs 404 est d’effectuer une analyse de log. En effet, dès qu’une requête est effectuée vers un serveur Web, celle-ci est stockée dans un fichier que l’on appelle log. Dans le cas des sites internets, l’on trouve différentes informations dans les logs : la page demandé par l’internaute ou le robot, la date à laquelle la demande a été faite, le navigateur ainsi que l’adresse IP du demandeur, ainsi que le code réponse. Et c’est ce code de réponse qui nous intéresse. En analysant les fichiers logs il est donc possible de retrouver l’ensemble des pages ayant été appelées et ayant répondu avec une erreur 404.

Bien qu’il soit possible d’analyser les logs avec un simple éditeur de texte, le plus simple est d’utiliser des outils d’analyses dédiés. Il existe pour cela de nombreuses méthodes et de nombreux logiciels. Chaque logiciel est adapté en fonction de vos besoins, de vos compétences techniques et de votre budget. J’utilise personnellement Screaming Frog Log Analyzer ainsi que la suite Elastic en fonction de mes besoins et de ceux de mes clients. Vous pourrez retrouver d’autres outils tel que OnCrawlSeolyzer, et bien d’autres.

La méthode d’analyse des logs pour détecter les pages 404 est la plus puissante et la seule vous permettant de détecter l’intégralité des erreurs sans vous tromper.

Détecter les pages 404 avec un Crawler

La seconde méthode pour détecter les pages 404 est l’utilisation d’un Crawler. Un Crawler est un logiciel vous permettant de parcourir l’ensemble des pages d’un site ainsi que les liens entre les pages. Ainsi, si votre site contient des liens “cassés”, comprenez des liens renvoyant vers des pages 404, vous pourrez les détecter.

Cependant, certaines pages détectées en tant que 404 par Googlebot ne sont pa présentes dans l’arborescence du site et vous ne serez pas en mesure de trouver de manière certaine l’ensemble des pages 404 de votre site en utilisant cette méthode. Cette méthode est donc à utiliser si vous n’avez pas la possibilité d’accéder aux logs serveur de votre hébergement web.

Utiliser la Search Console de Google pour trouver les pages 404

Enfin, la dernière solution pour détecter la présence de pages 404 introuvables sur le site est l’utilisation de la Search Console de Google. Bien que peu précise, cette solution peut vous permettre d’intervenir rapidement sur les pages importantes. Afin de connaître une liste de vos pages 404, rendez-vous dans la section “couverture” de la search console. Vous pourrez alors détecter les pages introuvables.

Faites cependant attention, l’outil de Google est bien souvent incomplet et l’analyse via la GSC ne sera pas suffisante pour corriger l’ensemble des erreurs.

Comment traiter les pages 404

Maintenant que nous avons vu comment détecter les pages 404 sur votre site internet, la question qui se pose est la suivante : que faire des pages introuvables ? De mon point de vue, il existe trois solutions.

Utilisation des redirection 301

Dans le langage serveur, une redirection 301 est un code indiquant que la page a été redirigé de manière permanente. Si vous détectez des pages 404, il peut être intéressant d’effectuer une redirection permanente 301 vers une autre page de site. Cela est particulièrement utile dans le cas des sites e commerce avec les collections ou des événements pouvant changer. Lors du passage d’une collection à une autre, il est possible de rediriger la page vers la collection la plus récente.

Cette redirection doit être mise en place si une page est cohérente avec l’ancienne page (exemple des collections), ou bien si la page introuvable profitait de nombreux liens externes.

Utilisation du code 410 Gone

Une autre méthode pour gérer les erreurs 404 est l’utilisation du code serveur 410 Gone. Alors que qu’une page 404 renvoie une simple erreur, le code 410 Gone indique que cette page n’existe plus car le contenu n’est plus disponible. En utilisant un code d’erreur 410 au lieu de 404, vous indiquez aux robots de Google que la page ne sera plus disponible à l’avenir, ainsi les robots arrêterons de parcourir cette page.

Recréer une nouvelle page

Enfin, la dernière solution peut sembler la plus basique. Lors de nombreuses migrations de site internet, certaines pages peuvent être amenées à disparaître. Dans le cas où cette page était importante pour l’activité de l’entreprise, il peut être intéressant de récupérer l’ancien contenu pour le mettre en ligne ou bien de créer du nouveau contenu.

Les soft 404

Dans le monde du référencement naturel et du SEO, on entend souvent parler de soft 404. Les soft 404 ne proviennent pas du code de réponse http du serveur, mais d’une analyse faite par les robots de Google.

Les soft 404 sont des pages ayant répondu avec une entête 200 mais présentant tous les attributs d’une page 404 introuvable, avec un contenu vide ou sans contenu principal.

Cela peut se produire lorsque vous supprimez un produit de votre boutique en ligne mais que le CMS que vous utilisé ne gère pas correctement la page. Il arrive alors que le serveur renvoi une page existante mais qu’il affiche une erreur « Le produit n’est plus disponible », ou encore n’affiche rien.

En soit, les soft 404 sont des pages répondant avec une entête 200 mais présentant une mise en forme de page 404 classique.

Mise à jour 13 mars 2024
Besoin d'aide pour votre SEO ?

Vous souhaitez améliorer vos positions sur Google et générer du trafic qualifié à l’aide du référencement naturel SEO, nous sommes là pour vous accompagner.

Agence SEO
Nicolas Trimardeau
Depuis 2004, je parcours le web et fais des tests pour comprendre les algorithmes de Google. Je vous partage mon expérience du SEO et du SEA pour vous aider à exploiter correctement le pouvoir du plus grand moteur de recherche du monde.