Regex pour SEO
Portrait Olivier Duffez

Olivier Duffez

Créateur de WebRankInfo,
consultant SEO

  • Olivier Duffez sur LinkedIn
  • Olivier Duffez sur X (Twitter)
  • Chaine Youtube WebRankInfo

Les meilleures regex à utiliser dans Google Search Console

Utiliser des regex (expressions régulières) dans le rapport Performances de la Search Console est très puissant. Je vais vous expliquer ce que c'est, comment s'en servir, et vous offrir les exemples de regex les plus utiles que je connaisse.

Résumez ou partagez cette page :

Accès rapide : définition - utilité - comment faire - liste d'exemples

C'est quoi une regex ?

Définition

Une regex (expression régulière) est une sorte d'outil informatique permettant de chercher si un texte (chaîne de caractères) correspond à un certain motif.

Comment écrire une regex ?

Il faut connaître certains caractères spéciaux, étudier des exemples puis s'entraîner ! Je détaille tout ça dans la suite...

Les caractères spéciaux

Voici les caractères spéciaux génériques à connaître, à inclure dans vos expressions régulières :

Caractère génériqueExplications
.N'importe quel caractère (un seul)
[caractères]N'importe quel caractère (un seul) parmi ceux indiqués entre les crochets
[a-z0-9]Le tiret à l'intérieur des crochets permet de définir des intervalles, par exemple ici ça correspond avec n'importe quelle lettre et n'importe quel chiffre
[^abc]L'accent circonflexe à l'intérieur des crochets permet d'interdire des caractères. Par exemple [^abc] correspond à tout sauf les caractères a, b et c.
()Les parenthèses permettent de regrouper des caractères à chercher. Par exemple (chien|chat) correspond à chien ou à chat
*Indique que l'élément précédent (à gauche) peut être présent zéro, une ou plusieurs fois
+Indique que l'élément précédent (à gauche) doit être présent une ou plusieurs fois
?Indique que l'élément précédent (à gauche) peut être absent, ou présent une fois
{3}Indique que l'élément précédent (à gauche) doit être présent un certain nombre de fois, 3 dans cet exemple. On peut être plus précis avec la syntaxe {2,5} qui impose que l'élément soit présent entre 2 et 5 fois ou avec la syntaxe {3,} qui impose que l'élément soit présent 3 fois ou plus.
|Correspondance avec ce qui est avant ou après (c'est l'opérateur OU)
\Ce symbole permet d'éviter que le caractère qui suit soit considéré comme un caractère spécial. Par exemple \. représente le signe . et pas autre chose
\dUn (seul) chiffre (entre 0 et 9)
\DCaractère qui ne correspond pas à un chiffre
\sCaractère équivalent à un espace (par exemple aussi une tabulation)
\SCaractère qui n'est pas équivalent à un espace
\wCaractère situé dans un mot, c'est-à-dire une lettre, un chiffre ou _
\WCaractère qui n'est pas dans un mot (le contraire de \w)
(?i)Indique que la correspondance ne doit pas être sensible à la casse. Il faut l'indiquer au début de la regex
^Si c'est situé au début de la regex, la correspondance se fait seulement si la chaîne commence par ce qui est juste après ^
$Si c'est situé à la fin de la regex, la correspondance se fait seulement si la chaîne se termine par ce qui est juste avant $
Les caractères génériques permettant d'écrire des expressions régulières

Attention, Google a choisi d'utiliser la syntaxe RE2, comme dans d'autres de ses outils, par exemple Google Sheets (que vous pouvez utiliser pour tester, avec la fonction RegexMatch).

A quoi sert une regex dans la Search Console ?

Parmi les rapports fournis, celui sur la performance de vos pages dans les SERP est un incontournable. Je dirais même qu'il vaut de l'or... En gros, il peut vous indiquer :

  • sur quelles requêtes vos pages sont sorties dans les SERP
  • quelles pages sont sorties dans les SERP
  • quels types d'appareils, quels pays...

Au lieu d'afficher ça pour tous les cas de figure, vous pouvez filtrer pour que ça ne concerne que certaines requêtes et/ou certaines pages.

2 exemples pour bien comprendre :

  • ajoutez un filtre sur les pages pour voir uniquement les performances de certains types de pages sur votre site (les fiches produits, les catégories, etc.). Dans ce cas, la regex s'applique aux URL.
  • ajoutez un filtre sur les requêtes pour voir les performances de votre site pour les requêtes faisant référence à votre marque

Comment utiliser les regex dans la Search Console ?

Voici les étapes :

  1. Allez sur le rapport Performances
  2. Cliquez sur "Ajouter un filtre"
  3. Choisissez "Requête..." pour que la regex s'applique aux requêtes ou "Page..." pour les pages (URL). Vous pourrez ajouter un filtre de chaque type
  4. Tapez la regex dans le champ "Saisir une expression régulière"
  5. Validez en cliquant sur Appliquer

Détails en images...

étape 2 :

nouveau filtre search console
Nouveau filtre dans Search Console

étape 3 :

Filtre de type regex
Filtre de type regex (expression régulière)

étape 4 :

saisie de la regex
Champ pour saisir la regex dans search console

Une solution bien plus simple !

Grâce à tous les exemples que je donne plus loin, vous pouvez exploiter les expressions régulières directement dans Search Console. C'est gratuit !

Gratuit, mais long et fastidieux. Vous allez le faire 1 fois, ou quelques unes, puis vous trouverez que c'est pénible. Je le sais très bien, c'est ce qui m'est arrivé ainsi qu'à plein de SEO.

C'est pour ça que je l'ai intégré directement dans mon outil RM Console de suivi SEO. Voyez un peu :

  • pas besoin de taper les regex, il suffit de sélectionner une segmentation dans des menus
  • certaines segmentations incluses sont très compliquées à gérer à la main. Par exemple, le top 300 des plus grosses villes de France ou toutes les marques de voitures...
  • vous pouvez ajouter vos propres regex. Vous les tapez une fois et ensuite c'est très simple.
  • si vous le demandez, vous pouvez recevoir chaque semaine les requêtes qui correspondent à l'une des segmentations de votre choix et pour lesquelles le site n'était encore jamais sorti dans Google avec
  • vous pouvez combiner bien plus de filtres que dans GSC

Voici par exemple un filtre qui exploite une regex pour des intentions commerciales et transactionnelles :

Voici quelques exemples des possibilités de recherches de mots-clés dans RM Console :

  • questions (en français ou en anglais)
  • intention de recherche commerciale ou transactionnelle (en français ou en anglais)
  • recherches conversationnelles (type ChatGPT)
  • top villes de france
  • avis produits (français)
  • guides d'achats (français)
  • couleurs (français)
  • fruits (français)
  • légumes (français)
  • marques de voitures (français)
  • moyens de transport (français)
  • marques de vêtements (français)
  • sport (français)
  • SAV (anglais)

Bien entendu, RM Console sait également filtrer les mots-clés longue traîne. Il suffit de bouger le curseur !

Liste de regex utiles dans la Search Console

Voici ce que j'ai trouvé, contactez-moi si vous en connaissez d'autres !

Exemples de regex Search Console :

regexsert à repérer...
^\w+$requêtes de 1 mot
^[a-zA-Z0-9À-ÿ]*$requêtes de 1 mot (en gérant les accents)
^([^\s]+\s){3,}[^\s]+$requêtes de + de 3 mots (remplacez 3 par ce que vous voulez)
^(qui|quoi|où|ou|comment|que|quel|quelle|quand|pourquoi|combien)+\sune question en français
\b(are|can|how|what|when|where|which|who|why|will)\bune question en anglais
(bon marché|pas ch|sold|réduc|coupon|remise)du "pas cher" :-)
[a-zA-Z0-9-_.]+@[a-zA-Z0-9-]+.[a-zA-Z0-9-.]+une requête contenant une adresse email
https?:\/\/[^\/]+\/.+une URL autre que la page d'accueil (code à adapter si votre page d'accueil est autre chose que / seulement)
.*/$une URL qui se termine par /
https?:\/\/[^\/]+\/([^\/]+\/){3}une URL ayant exactement 3 répertoires (repérés par /) après la racine. Changez 3 par ce que vous voulez
/page/[0-9]+une URL de pagination au format type /page/2
[?&]p=[0-9]+une URL de pagination au format type ?p=2
.(doc|xls|ppt|pdf|rtf|odp|ods|odt|txt)$une URL d'un document a priori autre que HTML
utm_(source|medium|campaign|content|term)une URL qui contient des paramètres de tracking UTM
^(?:\+33\s|0)[1-9](?:\s\d{2}){4}$un numéro de téléphone (en France)
Expressions régulières utiles en SEO (regex Cheat Sheet)

Vos questions

Quel outil SEO permet d'identifier les requêtes avec des regex ?

La Google Search Console permet nativement d'identifier des requêtes avec des expressions régulières, mais il faut savoir créer les regex. L'outil SEO qui gère les regex à votre place est RM Console. Il simplifie grandement l'utilisation des filtres regex sur vos mots-clés.

Est-il possible d'utiliser des filtres regex via l'API de Google Search Console ?

Oui, il est tout à fait possible d'utiliser des filtres regex via l'API de la Google Search Console. Cela permet d'automatiser des extractions de données à grande échelle en se basant sur des modèles de correspondance sophistiqués. Pour ce faire, il faut configurer la requête API pour qu'elle utilise un filtre de dimension (dimensionFilterGroup) avec le type de correspondance REGEXP_CONTAINS.

Est-ce que les lookarounds (lookbehind/lookahead) sont supportés par les regex de GSC ?

Non, les lookarounds (c'est-à-dire les lookaheads et lookbehinds) ne sont pas supportés par les expressions régulières dans la Google Search Console. L'outil utilise la bibliothèque RE2 de Google, qui omet volontairement cette fonctionnalité pour garantir des performances d'exécution rapides et efficaces. Il faut donc trouver des alternatives pour contourner cette limitation lors de la création de vos filtres.

Quelles sont les limitations des expressions régulières dans Google Search Console ?

Les principales limitations des expressions régulières dans la Google Search Console proviennent de l'utilisation de la syntaxe RE2. Celle-ci n'inclut pas les fonctionnalités complexes et coûteuses en performance comme les lookarounds (?!, ?<=, etc.) et les références arrières (\1). De plus, la longueur de l'expression régulière que vous pouvez saisir dans l'interface est limitée à 4096 caractères.

Quels sont les avantages d'utiliser les regex par rapport aux filtres standards de la GSC ?

L'avantage principal d'utiliser les regex par rapport aux filtres standards de la GSC est leur puissance de ciblage et leur flexibilité. Ils permettent de regrouper et d'analyser des ensembles de données selon une logique complexe, ce qui serait impossible avec les simples filtres "contient" ou "ne contient pas". Par exemple, vous pouvez isoler en une seule règle les requêtes de marque, les questions, ou des requêtes contenant des erreurs d'orthographe spécifiques.

Quelles sont les spécificités de la syntaxe RE2 utilisée par Google ?

La syntaxe RE2, utilisée par Google, a été spécifiquement conçue pour être rapide et sûre, en garantissant un temps d'exécution proportionnel à la longueur de l'entrée. Pour atteindre cette performance, elle sacrifie certaines fonctionnalités présentes dans d'autres moteurs regex (comme PCRE), notamment les lookarounds et les backreferences (références arrières). Sa syntaxe pour les opérations courantes reste cependant très similaire à celle des autres standards.

Comment filtrer les URL qui ne se terminent pas par un slash ?

Pour filtrer les URL qui ne se terminent pas par un slash, vous pouvez appliquer un filtre regex personnalisé sur la dimension "Page". L'expression régulière à utiliser est [^/]$. Cette expression signifie "trouver les chaînes de caractères dont le dernier caractère ($) est n'importe quel caractère ([]) sauf (^) un slash (/)".

Sources et sites utiles

Résumez ou partagez cette page :

Cet article vous a-t-il plu ?

Note : 3.9 (7 votes)
Cliquez pour voter !

Si vous avez des questions, posez-les dans le forum WebRankInfo.

Si vous préférez du consulting, j'en propose sur mon site WebRankExpert.

Laisser un commentaire

Remarques :

  • Si vous souhaitez poser une question ou détailler un problème technique, il ne faut pas utiliser le formulaire ci-dessous qui est réservé aux avis. Posez votre question directement dans le forum Gmail de WebRankInfo. L'inscription est gratuite et immédiate.

  • En postant un avis, vous acceptez les CGU du site WebRankInfo. Si votre avis ne respecte pas ces règles, il pourra être refusé. Si vous indiquez votre adresse email, vous serez informé dès que votre avis aura été validé (ou refusé...) ; votre adresse ne sera pas utilisée pour vous envoyer des mailings et ne sera pas revendue ou cédée à des tiers.

Un Commentaire

ONI

Merci pour ce rappel. Je ne sais pas pour les autres, mais je crois que dans mon parcours de codeur, s'il y a au moins un truc qui m'a bien pris le chou, ce sont ces ?#0*£!! d'expressions régulières !!!

Répondre