Plan de site, sitemap ?

Un sitemap, ou également plan de site, qu’est-ce que c’est et à quoi ça sert ?

Un sitemap est de part sa traduction  un plan de site, en général un fichier au format XML

Il se matérialise par un fichier contenant une liste des URLs internes du site web pour lequel il est généré.

Il permet aux moteurs de recherche d’indexer votre site avec des informations sur les URLs de celui-ci.

Sans lui, certaines URLs ne seraient pas découvertes par les robots.

Si par exemple une URL de votre votre site n’est liée par aucune autre URL, il sera alors impossible pour un robot de l’indexer sans le sitemap. Les robots d’indexation (Googlebot par exemple) ont donc besoin d’un sitemap pour découvrir toutes les URL de votre site web.

Les robots d’exploration des moteurs de recherche comme Googlebot lisent ce fichier pour explorer plus intelligemment votre site. source : Google

Le sitemap fourni également aux moteurs de recherche des métadonnées relatives aux pages listées. Ces métadonnées renseignent les moteurs de recherche avec des informations telles que la date de la dernière modification d’une page web, sa fréquence de mise à jour ou encore son importance dans le site internet. Les moteurs de recherche utilisent les informations contenues dans le sitemap pour optimiser le référencement de votre site internet.

 

Le protocole SITEMAP

Les robots d’exploration des moteurs de recherche Google, Yahoo! et Microsoft respectent le même protocole Sitemap. Un document décrivant le schéma XML est d’ailleurs disponible sur le site sitemaps.org.

Le plan Sitemap doit :

  • Commencer par une balise d’ouverture <urlset> et se terminer par une balise de fermeture </urlset>.
  • Spécifier l’espace de nom (standard de protocole) dans la balise <urlset>.
  • Inclure pour chaque URL une entrée <url> en tant que balise XML parent.
  • Inclure une entrée enfant <loc> pour chaque balise parent <url>.

Toutes les autres balises sont facultatives. La prise en charge de ces balises facultatives peut varier d’un moteur de recherche à un autre. Un sitemap ne peut pas lister plus de 50 000 URL et la taille d’un fichier XML ne doit pas dépasser 10 Mo (10 485 760 octets).

Source : sitemaps.org

Les différents types d’entrées d’un sitemap

Un sitemap peut contenir des URLs :

  • « classiques » (HTML, PDFs…),
  • d’images,
  • de vidéos.

Pourquoi le sitemap est-il important ?

Pour mieux comprendre l’importance d’un sitemap, un rapide décryptage du fonctionnement des robots d’indexation (appelés également Crawlers, Web spiders ou encore Bots) est nécessaire.

Pour découvrir et indexer les différentes pages de votre site web, Googlebot (et les autres robots) procèdent de la manière suivante :

  • Googlebot découvre votre site via un lien et commence par analyser le fichier Robots.txt(si le fichier robots.txt existe, le chemin vers le sitemap doit y être préciser, exemple : Sitemap: https://www.vincent-dasilva.fr/sitemap.xml),
  • Le robot analyse ensuite le code source HTML de votre page web, l’enregistre et l’envoie à Google,
  • Googlebot explore et repère ensuite tous les liens balisés <a> … </a> (internes et externes) tel qu’un utilisateur pourrait le faire en cliquant sur les liens lors de sa navigation.

Cette procédure est répétée à plusieurs reprises jusqu’à l’exploration complète de votre site internet. Une fois tous les liens explorés, il ne restera plus qu’à Google d’indexer vos pages web. Les robots revisiteront votre site à une fréquence dépendante des mises à jour de celui-ci. Plus les mises à jour de votre site seront fréquentes, plus il sera visité par les robots.

Conseil : dans le cas d’une création de site internet, n’hésitez pas à transmettre votre sitemap à Google via Google Search Console.

Pour conclure, l’importance de la présence d’un sitemap est lié au constat suivant : si une URL de votre site internet est inaccessible par la racine ou via ses URL descendantes, les robots ne pourront pas la trouver et l’indexer.