En mai 2024, une fuite de plus de 25 000 documents internes de Google a révélé des détails inédits sur le fonctionnement du moteur de recherche. Ces archives, contenant plus de 14 000 attributs, éclairent les mécanismes de référencement, offrant aux experts SEO des confirmations ou des bouleversements majeurs.
Véritable levier stratégique pour les sites web, le référencement sur Google repose depuis longtemps sur diverses possibilités souvent floues concernant les algorithmes de classement. Toutefois, l’événement de mai 2024 a permis de lever une partie du voile sur les mécanismes sous-jacents à Google Search, offrant un aperçu inédit concernant les critères de positionnement. Parmi ces révélations, on retrouve des informations clés sur les caractéristiques de qualité, les processus d’indexation et l’impact croissant de l’intelligence artificielle. Cette fuite s’inscrit dans une série de divulgations marquantes, comme le leak du Project Veritas en 2019 et les révélations issues du procès antitrust de 2023.
L’intégralité de l’architecture de Google Search dévoilée
Pour la première fois, la documentation technique de l’API Content Warehouse a dévoilé l’architecture complète du moteur de recherche. Ces révélations couvrent des aspects essentiels comme :
- L’indexation ;
- Les algorithmes de classement ;
- Les systèmes d’évaluation de la qualité.
Google Search s’appuie sur une organisation structurée en trois phases, comprenant notamment le crawl, l’indexation et le traitement en temps réel. Cette architecture permet de réaliser une analyse à la fois approfondie et rapide pour répondre efficacement aux requêtes des utilisateurs.
Récemment perfectionné par le composant WebIO, un système nommé Trawler orchestre la première étape appellée le crawl. Une fois récupérées, les pages web sont rangées en trois niveaux d’index en fonction de leur importance : Base, Zeppelins et Landfill. Les liens venant de pages Landfill sont par exemple considérés comme de moindre qualité. En même temps, des outils comme SAFT ou Goldtime analysent le contenu en profondeur, allant jusqu’à vérifier sa cohérence thématique grâce à des technologies avancées comme site2vec.
Ce processus met en avant l’importance d’un comparatif des données pour hiérarchiser leur pertinence et garantir que les informations les plus fiables et adaptées aux requêtes des utilisateurs soient favorisées dans les résultats.
Le traitement en temps réel fait référence à la manière dont les algorithmes analysent les interactions des utilisateurs avec les résultats de recherche. À ce titre, des outils comme NavBoost quantifient les clics des utilisateurs en différenciant deux types de clics :
- Les « bons clics », où l’utilisateur reste sur une page web ;
- Les « mauvais clics », où il revient immédiatement aux SERP.
Lancé en 2014, Glue semble avancer encore plus loin en scrutant des actions perspicaces comme le scrolling ou alors le survol de la souris. Ces comportements impactent en effet le classement des résultats, assurant l’importance de l’engagement utilisateur.
Google priorise l’IA pour un référencement plus contextuel
Ne se limitant plus à classer les pages uniquement en fonction des backlinks et des mots-clés, Google met désormais l’accent sur l’intelligence artificielle, notamment avec l’introduction de RankBrain et DeepBank. Bien que prometteuse, cette évolution a également engendré des imprévus, tels que des comportements parfois trop prévisibles du système.
L’approche du moteur de recherche a en effet évolué, passant d’une analyse isolée de chaque page à un examen contextuel basé sur un comparatif approfondi.
Les évaluateurs humains occupent un rôle essentiel dans ce processus, en se basant sur certains critères comme :
- La pertinence des réponses ;
- La qualité des pages.
Ces estimations entretiennent des systèmes plus complexes, dont le Normalized Site Rank (NSR). Celui-ci passe en revue la qualité des pages web, des sections et des domaines, considérant même les facteurs tels que la légitimité d’un site web ou la « topicalité » sur un thème donné. Cela engage une approche plus décisive des contenus, où la valeur thématique devient primordiale.
Ces révélations mettent en avant les nouvelles priorités pour le SEO. Outre la création du contenu de qualité, la construction d’une légitimité sur les diverses thématiques est importante. Il convient d’éviter les sujets trop éloignés du cœur d’expertise. A noter seulement que :
- La qualité des liens entrants : plus importante que leur quantité ;
- L’engagement des utilisateurs : signal notable à optimiser.
Il est important de noter que des outils comme Glue ou NavBoost soulignent à quel point l’optimisation de l’expérience utilisateur (UX) est devenue cruciale pour réussir dans l’écosystème complexe du référencement actuel. Entre autres, ils contribuent à limiter le taux de rebond et à améliorer le temps de lecture, deux facteurs essentiels qui renforcent la performance des pages dans les résultats de recherche.
Cet article vous a-t-il été utile ?
Note moyenne 0 / 5. Votants: 0