Référencement Google : à la rencontre des googlebots !

Google stocke dans d’immenses centres de données des quantités phénoménales d’informations. Quand vous effectuez une recherche en ligne, le moteur ne vous propose pas des résultats parmi tous les documents qui existent à cet instant sur la Toile, mais parmi tous les documents qu’il a pu stocker dans l’un ou l’autre de ses énormes ordinateurs répartis aux quatre coins de la planète. Pour espérer être un jour positionné parmi les premiers sur une expression ou un mot-clé, vous devez donc d’abord être indexé, c’est à dire être ajouté à l’index de Google.

L’invention et le principe des robots d’indexation

Les robots d’indexation ne sont pas nouveaux et sont apparus en 1993 avec Wanderer, un moteur de recherche développé par Matthew Gray du célèbre Massachusetts Institute of Technology. L’idée est toute simple mais absolument géniale : puisqu’il est impossible d’actualiser à la main l’index d’un moteur de recherche, il faut confier cette tâche à des robots.

Les robots d’indexation sont de petits programmes pensés pour se promener sur le web et scanner le contenu des documents qu’ils rencontrent. Pour naviguer d’une page à l’autre, ils utilisent le plus souvent les liens hypertextes rencontrés sur leur chemin. Ils peuvent aussi s’appuyer sur des sitemaps, des cartes de sites reprenant l’ensemble des pages (ou documents) à référencer.

Les recherches que vous effectuez sur Google ne reposent pas sur le contenu réellement présent en ligne à la seconde où vous cliquez sur le bouton « Recherche Google », mais sur une photographie du web à un instant T. Les versions en cache sur lesquelles Google s’appuie ont été mémorisées lors du dernier passage de ses robots d’indexation. Elles peuvent dater de quelques minutes, quelques heures ou quelques jours, plusieurs semaines ou plusieurs mois. La fréquence d’indexation d’un contenu dépend en effet de très nombreux facteurs, internes ou externes à votre site.

Data Center Google

Les data centers de Google sont si stratégiques qu’ils sont gardés par des stormtroopers. Mais nous pouvons vous y faire entrer.

Des robots d’indexations pour tous les types de contenus

Avec la création d’autres moteurs que le Search (celui qui indexe les pages web), un nombre croissant de types de contenus est susceptible d’être indexé. Pour les dénicher, Google fait appel à des robots spécifiques. Voici la liste de ceux-ci au 17 février 2016, telle que communiquée par Google itself :

Nom du robot Objectifs
Googlebot Il se focalise sur l’indexation des pages web pour nourrir le moteur Search :

  • version desktop (ordinateurs de bureau)
  • version mobile (smartphones, tablettes)

Le googlebot « émule » plusieurs navigateurs, version desktop ou web mobile. Il peut aussi crawler d’autres types de contenus, comme des fichiers PDF.

Googlebot-News Il se concentre sur l’indexation des actualités pour le moteur Google Actualités
Googlebot-Image Il est chargé d’indexer des images pour le moteur Google Images
Googlebot-Video Il s’occupe de l’indexation des vidéos pour le moteur Vidéos
Googlebot-mobile Il se limite à l’indexation des contenus pour les téléphones multimédias (téléphones hybrides entre les mobiles et les smartphones)
Mediapartners-Google / Mediapartners (Googlebot) Il visite les sites associés au programme Adsence (mobile ou desktop), afin de proposer des annonces publicitaires adaptées à la thématique de chaque page.
AdsBot-Google  Il contrôle la qualité de la page de destination d’une publicité Adwords. Il est indispensable à l’élaboration du Quality Score de vos annonces, qui repose sur l’adéquation entre un mot-clé, un texte d’annonce et une page de destination.

Un peu de vocabulaire : crawl et indexation

Il est important, à ce niveau, de distinguer des termes proches et pourtant bien distincts :

  • le crawl consiste en la visite de contenus, en suivant les chemins disponibles. Quand un robot effectue un crawl de votre site, il visite donc les différents contenus accessibles.
  • l’indexation consiste en l’ajout de vos contenus à l’indexation Google. Ils seront stockés en cache sur les serveurs de Google et susceptibles de ressortir sur certaines expressions.

Vos contenus peuvent donc être crawlés sans être indexés.

xenu-1.3.8-screenshot

Vous pouvez télécharger des crawlers gratuits, comme Xenu, pour parcourir l’ensemble de votre site comme le ferait un robot d’indexation lambda

Améliorer la fréquence d’indexation de ses contenus

Vous aimeriez que les différentes déclinaisons du googleblot viennent plus souvent crawler vos contenus ? Plusieurs éléments vous permettent de jouer sur la fréquence d’indexation de vos contenus.

La popularité d’une page joue sur son taux de crawl : plus une page est présente dans votre maillage interne, plus son niveau de profondeur est faible, plus elle dispose de liens entrants, plus souvent le robot d’indexation est susceptible de la visiter.

La mise en place d’un maillage interne optimal : vous devez diriger les googlebots vers toutes les pages importantes de votre site, toutes celles qui travaillent une expression destinée à vous ramener du trafic. Vous pourriez par exemple mettre en place une stratégie de linking en silos ou en cocons : vous positionnerez le robot d’indexation dans un ensemble de pages de même thématique qu’il pourra parcourir à sa guise. Laurent Bourrelly est le mieux placé pour en parler : pour cela, rendez-vous sur http://www.laurentbourrelly.com/

La vitesse de chargement des pages joue aussi un rôle : si vos pages mettent du temps à charger, voire renvoient un code d’erreur 500 ou 503, votre processus d’indexation en souffrira. Optimiser le temps de chargement de vos différentes pages est donc un chantier important pour améliorer le crawl de son site et la fréquence d’indexation.

Une mise à jour régulière de votre site est un signal positif envoyé à Google : les robots d’indexation reviendront d’autant plus fréquemment qu’ils constatent l’enrichissement des pages actuelles, ainsi que l’ajout de nouveaux contenus.

Les sitemaps peuvent aussi  faciliter le crawl de votre site en portant à la connaissance de Google les différentes adresses des contenus qu’il peut indexer. Vous pouvez créer des sitemaps pour les différents types de contenus (pages, images, vidéos, etc…).  Nous en parlons dans un article dédié : À quoi sert (vraiment) un sitemap en référencement ?

Ces quelques conseils ne constituent pas une liste exhaustive. Si le SEO représente un levier stratégique pour votre activité, rapprochez-vous d’une agence ou d’un consultant spécialisé.

Benjamin Thiers vient de coécrire Ce que Google veut, Comprendre le référencement naturel, aux éditions Studyrama Pro

A propos de l'auteur

Benjamin Thiers

Benjamin Thiers  (19 articles)

Responsable du Search Engine Marketing du site SeFaireAider.com, j'ai commencé à travailler dans le référencement naturel en 2003. Je suis fasciné par le formidable terrain de jeu que représente le marketing digital, en évolution permanente. Auteur des livres Digitalisez votre marque et Ce que Google veut, tous deux aux éditions Studyrama, j'anime aussi un cours de communication digitale pour Kedge Business School. J'anime depuis septembre 2015 la rubrique SEO/SEA de MyCommunityManager.

Création WordPress à Paris, Sion et Dakar - Social Media et Community Management à Marseille