Gérer le duplicate content et le DUST avec la balise canonical

Il y a un terme qu’on répète très souvent en SEO et qui fait frissonner bon nombre de référenceurs ou de responsables éditoriaux d’un site, c’est le Duplicate Content. Mais il existe aussi sur votre propre site, des URL dupliquées que vous ignorez peut être, on parle ici du DUST. On vous explique tout ici, et on vous rassure dès maintenant, il y a une solution, la balise Canonical !

 

Duplicate Content (ou contenu dupliqué), c’est quoi ?

Par définition, on parle de contenu dupliqué (ou duplicate content en anglais avec l'accent) lorsque le texte d’une page est similaire ou identique à une autre page. Cela arrive lorsqu'un site s'inspire d'un peu trop près de votre site, ou pire, lorsque vous faites un copié collé d'une page web pour rédiger votre propre page web.

Les moteurs de recherche pénalisent fortement le duplicate content interne car ils prônent le contenu unique !

Dans cet exemple, les 2 pages semblent différentes, mais pour un crawler (robot d’indexation) les textes sont les mêmes ou très proches.

Il existe des outils gratuits pour tester le pourcentage de contenu dupliqué comme par exemple : https://www.positeo.com/check-duplicate-content/ et bien d'autres.

Le problème que l'on rencontre le plus souvent est en e-commerce pour les fiches produits, pourquoi ?
Tout simplement car une fiche produit dispose souvent de plusieurs attributs. Si vous paramétrez une url par attributs, vous risquez d'avoir de nombreuses pages en duplicate content.

Prenons un exemple concret le cas Oliphil, marque de vêtement.

  • Le polo de la collection RugbyClub existe en 3 couleurs (bleu, vert, rose) et 3 tailles (L, M, XL)
  • Ce qui fait 9 pages sur le site : 3 x 3 produits (polo bleu en L, polo bleu en M, polo bleu en XL, polo vert en L, polo vert en M, etc...)
  • Toutes les pages auront le même descriptif produit, les mêmes caractéristiques, le même titre, les mêmes balises meta, alt, Hn, etc... à quelques exceptions près "la taille" et "la couleur", soit à peine 2 mots sur l'ensemble de la page.

Pour éviter ce contenu dupliqué entre les 9 pages on utilisera la balise canonical sur la fiche produit "parente", les autres pages seront ainsi identifiées par les moteurs de recherche comme des pages enfants et donc à considérer autrement que des pages uniques.

Nous décrirons un peu plus loin la balise canonical, mais avant cela, parlons du DUST.

 

Qu’est ce que le DUST (Duplicate URL, Same Text)

Le DUST est une notion très simple, elle consiste à faire émerger les URLs d’une même page (par exemple la home page) qui peuvent être variées alors qu'elle dirigent toutes vers la même page, donc le même texte. Ce qui signifie que pour une même page (même contenu texte) vous avez plusieurs URL différentes.

Pour voir un exemple concret, prenons ici l’exemple que propose Abondance :

  • http://www.monsite.com/
  • https://www. monsite.com
  • http://monsite.com/
  • https://monsite.com/
  • https://www. monsite.com/index.php
  • http://www. monsite.com/index.php ?langue=fr
  • http://www. monsite.com/index.php?source=emailing
  • etc… la liste est parfois longue…

Les webmasters (je n'aime pas ce nom) passent parfois beaucoup de temps à paramétrer des redirections 301 pour gérer ce problème, mais au risque d’oublier certaines URL.

L’exemple le plus courant que l’on retrouve dans les URL dupliquées ce sont les attributs "langue" dans l’URL, mais on trouve également les URL avec ou sans les "www" ou encore avec "http" ou avec "https" bref une multitude d’URL qui pointent toutes vers la même page.

Pour gérer ce problème, là encore la balise canonical peut vous aider !

 

La balise canonical pour éviter le duplicate content et le DUST

Heureusement il y a une solution pour tout ça, la balise canonical, on vous explique à quoi elle ressemble

Exemple de balise canonical sur la home page de mon site : <link rel="canonical" href="https://www.monsite.com/">

La balise canonical est à intégrer entre les balises <head> de votre page.

Cette balise permet donc d’indiquer au robot d’indexation (Google Bot ou autre) que cette page est la page référente, et que toutes les autres URL qui ouvrent sur cette page ne sont pas à considérer de la même manière.

Grâce à la balise canonical vous pouvez donc générer des pages avec le même contenu sans risquer d'être pénalisés par les robots d'indexation, vous pouvez également arrêter de vous soucier des URL dupliquées.

Si vous souhaitez aller plus loin dans les erreurs les plus communes en référencement naturel, vous pouvez télécharger le livre blanc sur le "Top 20 des erreurs à éviter en SEO"

 

Pour terminer sur une note musicale, si vous aussi vous avez eu la chanson de Queen dans la tête "Another One Bites the Dust", voici de quoi passer 3'42 min sympas :)

 
ban-new-rediger-web
Télécharger votre guide  "Rédiger pour le web"
Digital Passengers