Les cartes sémantiques de contenu

December 19, 2023
Sébastien MOUGEL
Sébastien MOUGEL (CEO Beyond1)

AI and Software Engineer : LinkedIn

Nuage de point représentant une carte sémantique
Photo by Sébastien MOUGEL - SEOCopilot

Les cartes sémantiques de contenu (content semantic maps) sont une nouvelle façon d’explorer de manière visuelle le contenu d’un site web. Elles permettent de visualiser en un clin d’œil des pages ayant des similarités en terme de contenu. Des pages ayant une thématique proche seront rapprochées sur la carte. A l’inverse, des pages n’ayant aucun rapport entre elles, seront très éloignées. A la manière de la cartographie Google Maps, on peut leur ajouter des calques pour analyser une composante supplémentaire liée au contenu (conversion, taux de clic, position etc.)

Carte sémantique de contenu (Décembre 2023) : site web polestar.com et rivian.com (Fabricants voiture électrique)
Chaque point représente une page de contenu
Ces cartes sont interractives : en survolant chaque point, on visualise : un titre, une url
On observe des petits groupes de contenu (cluster sémantique) Les thématiques abordées par Polestar sont beaucoup plus nombreuses.

Quels sont les cas d'usage ?

Identifier des pages ayant un thême proche ou éloigné

Visualiser des clusters de page (Cocon sémantique).

Si vous gérez un site web avec du contenu généré par les utilisateurs ou la mise en ligne d’un catalogue produit, les cartes sémantiques vous permettent de vérifier catégorie de contenu par catégorie de contenu si votre classement est correct. Exemple : Un e-commerçant peut adjoindre à chaque page de contenu le visuel d’un produit et décider d’afficher la carte sémantique d’une catégorie de produit. Si vous visualisez une perceuse dans la catégorie piscine vous pourrez facilement identifier la source d’erreur. Dans le cas de la mise en ligne d’un article de blog, les classements catégoriels ou par tag peuvent comporter des erreurs parfois difficiles à détecter et les cartes sémantique sont un moyen d’y répondre. A l’aide de la notion de proximité entre chaque contenu, vous pourrez décider si vous souhaitez traiter une thématique de manière plus large (en élargissant le champ sémantique : en étoffant le contenu sur des sujets reliés ou des mots clés dérivés).

Détecter si une thématique de contenu est sur ou sous représentée

Pour un consultant SEO : vous avez en charge de réaliser un audit de contenu d’un site web. Malheureusement vos ressources en temps sont limitées et généralement vous réalisez des analyses par échantillon de contenu. Dans le cas présent, la carte sémantique permet un gain de temps en visualisant les points d’attention à remonter à vos clients : thématique sous développée, contenu hors sujet ou à repositionner. Vous pouvez également détecter des pages que vous pouvez relier entre elle via du net linking interne.

Carte sémantique de contenu (Décembre 2023) : blog.withings.com et blog.fitbit.com (Hardware connecté : Montres, balances)
Le champ sémantique couvert par fitbit est très large. Néanmoins la zone de points bleu non couverte pourrait être un opportunité à saisir ?

Simplifier la modération d'une communauté

Pour un community manager : Vous gérez une communauté qui produit du contenu sur votre site web par le biais des forums, des commentaires ou du contenu participatif. Les cartes sémantiques vous permettent d’identifier la teneur générale des contenus qui sont publiés. En couplant cette cartographie avec une information liée à la review ou non par un modérateur du contenu, vous pouvez décidez quelles zones de contenu sont à auditer.

Pour le gestionnaire d’un site web à contenu généré par les utilisateurs ou d’une source externe : Dans le cas de User Generated Content ( commentaires, forums, contenu participatif : wikipedia etc.) ou de contenu intégré à partir d’une source externe (Intégration de catalogue produit, pièces détachées, données métier) il peut être difficile d’appréhender les volumes de contenu généré : problème de classification en catégorie etc. Ici l’analyse sémantique vous permet de mieux analyser le contenu produit et ne plus dépendre d’un système de classification manuel.

Identifier le type de contenu qui convertit ou réalise des ventes

En combinant l’analyse sémantique et les données de conversion de vos pages (ventes, demande de devis, téléchargement d’application) vous pouvez visualiser les pages les plus génératrices de conversion. On peut également leur combiner une heat map (carte de chaleur) pour analyser les zones de contenu qui atteignent vos objectifs. Ces données deviennent actionnables car vous pouvez décider si vous souhaiter augmenter votre production de contenu sur une thématique donnée ou à l’inverse stopper vos investissements.

Visualisation du taux de conversion par page
Visualisation d'un volume de vente par page

Pré-requis : Etre en mesure d’avoir un suivi de vos conversions page par page. (Le SEOCopilot vous permet d’intégrer avec facilité un outils de mesure de vos conversions)

Analyser le positionnement stratégique de ses concurrents (contenu et positionnement d'offre)

Visualisation du contenu de 3 sites en concurrences.
Le concurrent en vert est relativement éloigné des 2 autres en matière de contenu.
Il semble y avoir plus de contenu similaire entre le site bleu et rouge.
En superposant un calque de conversion, vous obtenez des idées d'article très intéressantes.

Autre aspect stratégique du marketing : effectuer une veille du contenu des concurrents. Ainsi, sur une même carte, on peut visualiser à l’aide d’un code couleur le contenu produit par ses concurrents. L’apport est considérable car vous pouvez observer le positionnement concurrentiel en terme de contenu (Est-ce que votre client se démarque avec un positionnement premium de son offre ? Vise t-il une problématique plus spécifique des utilisateurs ?) Est-ce que vous pouvez dépasser ce concurrent par un effort intensif de production contenu pour une thématique donnée ? Identifiez-vous des gaps que vous pouvez combler ?

Détecter des contenus "hors sujet"

Autre apport de l’analyse sémantique, la détection de contenu hors sujet ou hors thématique. Vous êtes dans un scénario ou vous ne contrôlez pas intégralement la production de votre contenu (User Generated Content) ou vous gérer une production d’une grande quantité de contenu ; Vous pouvez grâce aux cartes sémantique identifier un point aberrant et donc la page concernée. Au delà des cartes sémantique, il est possible d’automatiser ce type de traitement avec de grandes économies à la clé.

Trouver des idées de contenu (Par alignement search query / contenu)

On peut également visualiser ce que l’on appelle l’espace de recherche ou “search space”. Un espace de recherche correspond à la visualisation de l’espace sémantique correspondant aux recherches effectuées par les internautes sur Google. Vous pouvez obtenir ces requêtes par une extraction de vos données de la Google Search Console ou d’autres moteurs de recherche. En superposant cet espace de recherche avec l’espace sémantique de votre contenu, vous devriez dans l’absolu obtenir une superposition idéale des deux espaces. Ce ne sera pas le cas car l’espace de contenu est plus restreint que l’espace de recherche. En observant ces distances sémantiques, vous pouvez identifier des opportunités nouvelles de mots clés sur lesquelles vous pouvez vous positionner. En combinant des facteurs : requête générique ou longue traîne, vous pouvez évaluer rapidement la faciliter à se positionner sur le mot clé.

Comment réaliser des cartes sémantiques ?

Les cartes sémantiques sont générées à partir du contenu d’un site web. Il faut donc pouvoir accéder au contenu du site web afin d’extraire toutes les informations pertinentes du site considéré. Les contenus se trouvent parfois derrière des contents firewall. Veuillez à surveiller vos vitesses de crawl sous peine de voir votre adresse IP bloquée.

Pour réaliser ce type de carte, votre équipe technique doit être en mesure d’utiliser la technologie des LLMs. Cette technologie permet de représenter un contenu sous une forme vectorisée. A partir de ces vecteurs, vous pourrez utiliser les techniques traditionnelles de machine learning pour effectuer des traitements supplémentaires (clustering, recherche sémantique etc.) Faire ce type de traitement à l’échelle et sur un grand volume de donnée peut nécessiter des infrastructures techniques particulières : Serveurs équipé de GPU, grande quantité de mémoire vive, drivers spécifiques. Par ailleurs, chaque LLM présente des spécificités : fonctionne t-il dans un environnement multi-langue ? Est-ce que la représentation sous forme de vecteur est bonne dans cet univers sémantique ? Les profils requis pour effectuer ce type de développement sont les data scientists, ingénieurs IA disposant de connaissances dans le domaine du NLP (Natural Language Processing).

Pour ajouter des calques à ces cartes sémantique, vous devez adjoindre à chaque unité de contenu une donnée supplémentaire comme par exemple les données de conversion. Grâce à la donnée de conversion vous pouvez par exemple associer à chaque point une couleur ou une taille représentant par exemple : un volume de vente, un chiffre d’affaire, un taux de conversion.

La restitution de ces cartes peut se faire par la livraison d’une page web interactive permettant de naviguer de manière intuitive au sein des données. Pour des volumes de données important, il sera nécessaire d’implémenter des critères de filtrage pour simplifier la visualisation.

Quels sont les inconvénients et les limitations ?

Les cartes sémantique sont un moyen intuitif et une nouvelle manière de naviguer dans une masse de contenu. Néanmoins naviguer dans un grand volume de donnée peut s’avérer délicat. Il sera donc indispensable d’y pallier à l’aide de plusieurs solution : mise en place de critères de filtrage, réaliser des échantillonnages. Les techniques de clustering peuvent vous permettre de visualiser dans un premier temps les « grosses » masse de contenu et vous pouvez ensuite de basculer vers un affichage plus détaillé.

Le choix du modèle de données est également un élément d’attention. Il devra être adapté au contenu que vous souhaitez cartographier. Certains LLMs sont parfois inadaptés dans des domaines particuliers : santé, juridique, financier (Tout comme chat GPT peut présenter des lacunes dans des domaines spécifique). Des LLMs spécifiquement adapté à votre langue ou ré-entraînés dans votre champ d’application peuvent grandement améliorer les résultats.

La technologie de représentation de la carte sémantique est d’une importance critique. En effet la visualisation des ces vecteurs nécessite des paramétrages parfois complexe qui nécessite une compréhension mathématique des paramètres sous-jacent. Demander les services d’un expert peut faire toute la différence.

Conclusion

Les cartes sémantique de contenu sont un nouvel outil à disposition des équipes en charge de la gestion du contenu d’un site web, des équipes marketing et des community managers. Elles permettent de nouveaux usages (identification d’anomalies de catégorisation de contenu, identification d’opportunité en terme de rédaction de contenu, veille concurrentielle et stratégique). A l’instar de Google Maps, on peut leur ajouter des calques supplémentaires permettant de combiner sémantique et données métiers (métriques de conversion, modération etc.) et en font une arme redoutable pour orienter vos choix stratégiques.

Try SEOCopilot for free

I want to explore content ideas that can boost my conversions.