Expression régulière



Une expression régulière est une suite de caractères hexadécimaux ou spéciaux que l’on nomme couramment « motif » ou « pattern » en anglais, et que l’on utilise dans de nombreux codes et langages informatiques pour lire, contrôler et modifier le texte.

Procedure de récupération de données

Utilisation des patterns de codes

Les patterns de codes permettent de rechercher des chaînes de caractères ayant des propriétés communes dans un bloc de texte, et de leur appliquer un traitement automatique en les modifiant ou en les supprimant d’un seul coup, sans devoir faire les corrections une par une. Ce qui représente un gain de temps appréciable pour les développeurs de logiciels et d’applications. Les expressions régulières sont aussi utiles pour s’assurer de la validité de la structure d’un texte (une adresse e-mail, une date).

Composition des patterns

Un pattern peut se représenter lui-même : le pattern « bonjour » et le pattern « validé » représentent simplement les mots « bonjour » et « validé ». Mais il est également possible d’enrichir ce que décrit un pattern en ajoutant des caractères spéciaux ayant une signification spécifique.

Caractères spéciaux dans les expressions régulières

Par exemple, l’ajout d’une barre verticale permet de rechercher simultanément des expressions alternatives dans un texte : le pattern « ex-(ae|e|æ|é)quo » va chercher toutes les occurrences des mots « ex-équo », « ex-equo », « ex-aequo » et « ex-æquo ». Autre illustration : le fait de placer un pattern entre crochets permet de rechercher tous les caractères inclus : le pattern [0123456789] décrit l’ensemble des chaînes de caractères comportant chacun de ses chiffres.

La bibliothèque PCRE

La bibliothèque PCRE, issue du langage Perl, est la plus riche. Les fonctions PCRE débutent par preg_, la plus courante étant preg_match.