La stylométrie suit une approche matérialiste, qui fait sa force et sa faiblesse. Loin de sonder l’esprit de l’auteur ou la réception du
lecteur, elle recense objectivement les unités d’un texte.
Selon le point de vue linguistique, ces unités
varient. Le vocabulaire porteur du sens est naturellement le plus étudié ;
cependant, il implique un lemmatiseur pour ramener les formes lexicales aux
entrées du dictionnaire, et sa richesse limite malencontreusement le nombre des
occurrences. Les catégories grammaticales sont quant à elles plus stéréotypées,
leurs emplois étant dictés par des règles ; en outre, elles réclament également
un étiqueteur afin d’affecter chaque terme. Les lettres, la ponctuation et les espacements véhiculent enfin un élément plus archaïque et inconscient du langage, fait de
sons et d’émotions ; objectifs et profus, les caractères sont ici privilégiés.
Les unités fixées, quel mètre suivre ? La méthode traditionnelle analyse la composition du texte, par un simple comptage. Teneurs
fondamentales, temps et rythme sont alors effacés. Pour transcrire la répartition de
ces unités, les temps de retour d’un caractère sont enregistrés* :
par exemple, les temps de retour de « e » dans « exemple » valent successivement deux et quatre. Généralement indépendants, ces termes se synthétisent par leur fonction
de répartition. Les écarts entre ces fonctions pour l’ensemble des caractères définissent alors une distance intertextuelle. Enfin, les distances mutuelles au
sein d’un corpus sont projetées sur un plan idoine, en vue d’obtenir une carte.
La méthode et sa justification sont précisées dans ma
thèse (chapitre 2, section 7
pour la mesure et chapitre 8, section 5.1.2 pour les unités).
* Notre
article paru en 2016 généralise ce principe,
substituant aux temps de retour les temps de transition : les deux composantes
du rythme, répétitions et variations, sont alors prises en compte.