Optimisation du Pagerank interne avec Screaming Frog et R

Le maillage interne et une composante importante de votre référencement naturel. Permettre à Google de crawler efficacement votre site et distribuer le Jus SEO aux pages à plus fort ROI vous permettra d’améliorer la rentabilité de votre site. Dans cet article, nous verrons comment analyser et optimiser votre Pagerank interne à l’aide du logiciel Screaming Frog et du langage de programmation R.

Qu’est-ce que le Pagerank ?

Avant toutes choses, voyons ce qu’est le Pagerank. La définition Wikipédia nous indique « Le PageRank ou PR est l’algorithme d’analyse des liens concourant au système de classement des pages Web utilisé par le moteur de recherche Google. » (https://fr.wikipedia.org/wiki/PageRank)

Nous ne rentrerons pas dans les détails du calcul du Pagerank, mais pour résumer, il s’agit d’un algorithme permettant de juger de l’importance ou de la popularité d’une page en fonction des liens entrants et sortants de celle-ci. Chaque page du site possède une certaine quantité de « jus SEO » qui sera transmises aux pages liées. Plus le nombre de liens sortant sera important, plus la quantité de jus transmis sera faible.

Optimiser l’arborescence de son site afin d’indiquer clairement à Google quelles sont les pages importantes est donc primordial.

On se retrouve très rapidement avec des centaines, voire des milliers de liens sur un site. L’analyse du Pagerank interne doit donc être effectué à l’aide de logiciels, c’est ce que nous allons voir dans les paragraphes suivants.

Extraction de l’ensemble des liens internes avec Screaming Frog.

Comme nous l’avons vue, le Pagerank est un algorithme se basant sur les liens entre les pages. Nous allons donc devoir extraire l’intégralité des liens de notre site. Pour ce faire, nous allons utiliser le logiciel Screaming Frog.

Screaming Frog est un crawler permettant d’obtenir de précieuses informations sur un site, le logiciel est disponible à l’adresse suivante : https://www.screamingfrog.co.uk/seo-spider/. Vous trouverez une version gratuite qui permettra d’analyser des sites comportant moins de 500 pages. Si vous souhaitez analyser des sites plus importants, il sera nécessaire de passer à la version payante.

Dans un premier temps, nous allons donc lancer un crawl du site à l’aide de Screaming Frog et utiliser l’option « Bulk Export » – « All Outlinks ». Cela nous permettra d’extraire l’ensemble des liens sortants des pages dans un fichier csv.

Exporter lien internes Screaming Frog

Calcul du Pagerank interne avec R

Nous allons maintenant utiliser le langage de programmation R (https://www.r-project.org/) afin de calculer la transmission du jus SEO (ou Pagerank) sur les pages internes de votre site. Si vous n’êtes pas familier avec R, vous trouverez de nombreuses ressources vous permettant de vous auto-former sur internet.

Le script ci-dessous vous permettra de générer un fichier csv comportant le Pagerank interne de vos pages à partir de vos export Screaming Frog

library("igraph")
links <- read.csv("/screaming-frog-all-outlinks.csv", skip = 1) # Indiquez ici le chemin de votre fichier csv
links <- subset(links, Type=="AHREF") # Nous effectuons un filtre pour le récupérer que les liens (et non pas les fichiers JS, etc...)
links <- subset(links, Follow=="true")
links <- subset(links, select=c(Source,Destination))
g <- graph.data.frame(links)
pr <- page.rank(g, algo = "prpack", vids = V(g), directed = TRUE, damping = 0.85)
values <- data.frame(pr$vector)
values$names <- rownames(values)
row.names(values) <- NULL
values <- values[c(2,1)]
names(values)[1] <- "url"
names(values)[2] <- "pr"
values <- values[grepl("https?:\\/\\/(.*\\.)?domain\\.tld.*", values$url),] # On applique un filtre pour ne récupérer que les liens internes
write.csv(values, file = "/site-pagerank.csv") # On indique le chemin de sortie

Nous pouvons alors ouvrir le fichier .csv. Le fichier suivant présente le Pagerank des différentes pages lors d’un test d’arborescence sur mon site.

Résultat Analyse Pagerank R

La colonne PR indique le Pagerank des différentes pages. L’objectif est maintenant de distribuer le Pagerank vers les pages importantes du site. Dans mon cas, il s’agit des landings pages.

Optimisation de l’arborescence du site.

Nous allons voir comment optimiser l’arborescence du site afin de transmettre efficacement le Pagerank. Il existe de nombreuses façons de faire et les optimisations ne doivent pas nuire à l’expérience utilisateur, voici quelques pistes :

  • Placer les pages « Mentions légales » et « Crédits » uniquement sur la page d’accueil du site. Ces pages ne présentent pas un intérêt particulier pour le SEO. Il est donc contre-productif d’ajouter un lien sur l’ensemble des pages.
  • Diminuer le nombre de liens sur vos pages. Par exemple dans le cas d’un Méga Menu, demandez-vous si celui-ci est vraiment intéressant pour votre utilisateur.
  • Placez les pages importantes le plus haut possible dans votre arborescence et les pages à faible valeur ajoutées plus en profondeur.
  • Travaillez vos fils d’Ariane, par exemple dans le cas d’un site e-commerce assurez-vous que les produits sont classés dans les catégories importantes.
  • Etc…

Après ce travail d’optimisation sur mon site, voici le résultat :

Résultat optimisation Pagerank interne

On observe alors une nouvelle distribution du Pagerank. Les pages les plus importantes sont désormais les landings pages. Les pages du blog ont perdu en puissance, il s’agit d’un arbitrage nécessaire pour redistribuer le jus SEO vers les pages les plus susceptibles de générer de nouveaux clients.

Mise à jour 27 mai 2023
Besoin d'aide pour votre SEO ?

Vous souhaitez améliorer vos positions sur Google et générer du trafic qualifié à l’aide du référencement naturel SEO, nous sommes là pour vous accompagner.

Agence SEO
Nicolas Trimardeau
Depuis 2004, je parcours le web et fais des tests pour comprendre les algorithmes de Google. Je vous partage mon expérience du SEO et du SEA pour vous aider à exploiter correctement le pouvoir du plus grand moteur de recherche du monde.