Comprendre comment Google voit son site est très important, pas besoin de développer la raison dans les détails mais l’idée générale est qu’un site doive fonctionner pour Googlebot de la même manière que pour un utilisateur.
Fetch as Google dans la search console n’est pas très fiable visiblement.
De base, l’option “explorer son site comme Google” est limitée, on obtient seulement une image de ce que “voit” Googlebot. On ne sait pas si le site fonctionne correctement, par exemple si la navigation est réellement fonctionnelle. La version mise en cache par Google n’est pas vraiment bavarde non plus, le javascript étant exécuté chez vous.
En plus, dans un post (sur la manière dont Googlebot gère le Javascript) tweeté récemment par Aymeric Bouillat, on s’aperçoit que la limite de Fectch as Google n’est pas uniquement liée à l’impossibilité d’interaction, même le rendu n’est pas toujours fiable, bref on a pas la garantie que Google voit le site comme il nous le montre dans le rendu de la search console.
#SEO #mustread Impact du Javascript sur le SEO : le guide ultime https://t.co/AHrEyQp6Mh par @TomekRudzki
— Aymeric Bouillat (@aymerictwit) 27 février 2018
L’option “Explorer comme Google” pourrait s’appeler en réalité “Explorer PRESQUE comme Google”.
L’idéal pour explorer son site comme Google est de pouvoir naviguer avec les memes capacités que le “Web Rendering Service” utilisé par Googlebot, et j’avais appris dans un post publié quelques mois plus tôt (et écrit par le boss du mec qui a rédigé l’article partagé par Aymeric) que ce moteur de rendu web se base sur Chrome 41.
On apprend dans ces deux articles qu’il suffit d’installer chrome 41 pour vraiment voir son site comme Googlebot. Mais si j’ai bien interprété la lecture il manque encre un petit truc, juste une dernière pièce au puzzle, car chrome 41 va nous permettre de mimer les capacités JS de Googlebot, c’est déjà très bien de le savoir, mais pas suffisant pour voir son site comme Google.
Combo Chrome 41 + Gooreplace pour VRAIMENT voir son site comme Googlebot
Première étape, utiliser l’ancienne version 41 de Google Chrome.
Utiliser chrome 41 va permettre de naviguer sur son site en étant au meme niveau que Google dans l’interprétation/l’execution du javascript, vous l’avez compris c’est la première étape. Je vous remet ici le lien pour télécharger chrome 41 (trouvé sur les deux articles cités plus haut).
Deuxième étape : Naviguer en respectant le robots.txt
C’est la pièce du puzzle qui manque si je ne dis pas de bêtises, on a beau naviguer avec chrome 41 si notre navigateur ne respecte pas les règles du robots.txt nous n’avons pas grand chose en commun avec Googlebot. Chrome 41 c’est top, mais ça suffit pas pour voir son site comme Google.
J’ai cherché une extension chrome qui contraint le navigateur à respecter un éventuel robots.txt, je n’ai pas trouvé, pourtant ce serait bien utile comme petit tool.
Par contre j’ai trouvé une extension qui permet de modifier/bloquer les entêtes et les URLs et qui accepte les Regex. L’extension en question s’appelle Gooreplacer. Ici, le lien pour installer gooreplacer sur chrome. Ais-je besoin de vous dire qu’il faille l’installer sur Chrome 41 et pas sur une autre version de chrome ?
Il suffit alors de prendre le contenu de son robots.txt et de l’exprimer par une regex. Ici, un petit exemple de robots.txt et de regex qui va bien.
robots.txt
User-agent: * Disallow: /classes/ Disallow: /config/ Disallow: /download/ Disallow: /mails/ Disallow: /modules/ Disallow: /translations/ Disallow: /tools/
Regex
www\.nomdedomaine.com(\/classes\/|\/config\/|\/download\/|\/mails\/|\/modules\/|\/translations\/|\/tools\/)
Une fois que la Regex est prête, il suffit de l’ajouter dans l’extension Gooreplace, vraiment rien de compliqué. Ici un petit screen montrant où ajouter la regex en question dans l’extension Gooreplacer. Vous voilà bon citoyen du web désormais, vous naviguez en respectant le robots.txt.
PS: Ce dont parle cette article n’est pas une solution pour révéler la réalité d’un cloaking, on suppose ici que le serveur délivre la meme réponse quelque soit l’IP ou le User Agent du client
Merci pour cette info utile. Du coup, je vais lire l’article sur le cloaking. 🙂
Bravo pour le lien vers Chrome 41, j’ai personnellement perdu du temps à chercher 😀
Pour se rapprocher encore plus de la vision Googlebot (en plus de changer son UA facilement), ça serait cool de pouvoir naviguer avec une IP reconnue comme appartenant à Google. Bonne nouvelle, Google le permet avec son extension Economiseur de données. Dingue, mais vrai.
Très bonne idée, malheureusement elle n’est pas compatible avec Chrome 41. Googlebot ne va pas rester sur du chrome 41 indéfiniment donc le tips sera valable à l’avenir. Par contre je te remercie, je ne savais pas ça, c’est super utile.
Ce que cet article dit aussi en pointillés, c’est que Google ne donne que ce qu’il veut. Tout comme la communication de Google sur et autour le SEO est très floue autant que parcimonieuse, les outils mis à la disposition des webmasters et seos ne font pas foi. Analyser religieusement ces données revient à toujours avoir un crawl de retard et des angoisses souvent inutiles (faux positifs de pages bloquées ou non trouvées remontés dans la GSC par exemple). Qu’en penses-tu Walid ?
Salut Marc,
c’est sur Google ne dit pas tout et ce n’est pas évident de composer avec tout ça, mais on est tous dans le meme bateau. C’est vrai aussi qu’on psychote souvent pour pas grand chose, maintenant sur le manque de clarté et de données, c’est comme ça, on doit le relativiser, disons-nous qu’au pays des aveugles les borgnes sont rois, ca va beaucoup mieux après. Merci beaucoup pour cette réaction Marc !
Hello, l’idée est très bonne et il faut bien préciser qu’il faut utiliser Chromium pour le faire et non Google Chrome.
Mon idée est que tu peux tout embarquer dans une version portable de chromium et le diffuser encore plus facilement.
Il y aura juste une regex à créer.
https://sourceforge.net/projects/crportable/
Tres bon article! merci 😉
Merci pour ce que vous faite