- La musique des lettres - Variations sur Yourcenar, Tournier et Le Clézio (2008) : l’objectif de ce travail est d’analyser et de synthétiser un corpus littéraire à l’aide de statistiques. Classiquement, les fréquences des unités linguistiques indiquent la composition d’un texte ou son « thème ». D’inspiration stylistique et musicale, cette thèse propose de mesurer la rareté à la place de l’abondance, et de prendre en compte l’organisation des unités par leur rythme. Au sein d’un texte, les temps de retour d’une unité sont quasiment décorrélés. Ils se caractérisent par leur distribution en forme de cloche asymétrique, linéarisable avec un conditionnement par le passé. La répartition qui lisse ce spectre se mue alors en pierre de touche. Comparant deux textes, la distance généralisée mesure les écarts entre les répartitions. Dans l’ensemble, elle suit les évolutions de sa version classique fondée sur les fréquences, mais des divergences significatives apparaissent localement selon l’intensité de l’arythmie. Le corpus comprend trois romans du 20e siècle écrits par Yourcenar, Tournier et Le Clézio : Mémoires d’Hadrien, Vendredi ou les limbes du Pacifique et Désert. Les mesures linguistiques portent parallèlement sur les plans graphémologiques, syntaxiques et sémantiques. Globalement, ces plans se répondent et semblent obéir profondément aux mêmes lois linguistiques. Les graphèmes peuvent être privilégiés pour leur objectivité et leur abondance. Stylistiquement, l’intuition littéraire est confirmée par les mesures, qui montrent une gradation entre les oeuvres en suivant leur chronologie. Leurs divisions forment des ensembles homogènes au sein du corpus, si bien qu’un style se dégage et permet de simuler avec succès une attribution d’auteur (cf. thèse).

 

- Le Graphonaute ou Molière retrouvé (2009) : Corneille a-t-il écrit les pièces de Molière ? Les réponses se contredisent, y compris celles qui se réfèrent à l’objectivité des chiffres. Dans cette veine, notre étude se fonde sur la répartition des caractères composant un texte. Entre deux oeuvres, la distance résultante traduit la contribution de l’auteur, mais aussi du genre, de la forme et de la chronologie. Les mesures n’incitent pas à fondre Molière dans Corneille et mettent en lumière la variété de son oeuvre, probablement influencée par diverses sources (article publié en 2009 dans Lexicometrica, numéro "Topographie et topologie textuelles" ; autour de cette publication, voir également ma réponse à M. Labbé et l'article de Sciences et Avenir).

 

- Archéologie numérique de la poésie grecque (2010) : l’étude porte sur la poésie archaïque grecque, à savoir l’Iliade, l’Odyssée, les Hymnes, la Théogonie, Les Travaux et les Jours, le Bouclier. On interroge les attributions d’auteurs entre Homère et Hésiode, ainsi que les unités des oeuvres. La méthode stylométrique compare statistiquement la répartition des caractères entre deux textes. La distance qui en résulte permet de rapprocher ou d’isoler les éléments du corpus, puis de tracer une carte d’ensemble. Les résultats confortent la tradition : autour de l’Iliade et l’Odyssée, les Hymnes et le Bouclier sont dans l’univers d’Homère, la Théogonie et les Travaux formant le foyer d’Hésiode. A un niveau inférieur, des poèmes souvent homogènes parviennent à unir leurs parties. Les mesures constatent surtout la cohésion de l’oeuvre d’Homère par rapport à celle d’Hésiode, remettant en cause les thèses des analystes modernes. Sans trancher la question, nous parions que « l’aveugle de Chios » a vécu et composé ses poèmes (cf. mémoire).

 

- Les résonances étranges du manuscrit de Voynich (2014) : écrit dans une langue inconnue, le manuscrit est généralement attribué à l’Europe médiévale, à travers ses illustrations teintées de réalisme et de fantastique. À l’aune de caractères énigmatiques, la composition est normale, cependant la chronologie présente des corrélations inédites parmi les langues européennes, partiellement retrouvées dans le chinois. Le phénomène à mémoire longue pourrait naître d’un processus stochastique fractionnaire. Mais ces résonnances, rencontrées par ailleurs sur les plans sémantiques et binaires, font du manuscrit de Voynich une construction complexe, manifestement hors de la portée d’un savant du Moyen Âge, a fortiori d’un faussaire pressé par l’argent. L’hypothèse la plus vraisemblable reste celle d’un alchimiste, s’appuyant sur un langage naturellement rythmé pour transmettre une incantation ou une initiation. Néanmoins, la question reste ouverte... (article publié dans le prochain numéro de Lexicometrica ; English version).

 

- Enquête documentaire - La stylométrie et ses applications (2015) : Molière est-il l’auteur des pièces qu’il a jouées ? Homère a-t-il écrit l’Iliade et l’Odyssée ? Quel mystérieux alphabet révèle le manuscrit de Voynich ? Questions épineuses auxquelles la stylométrie tente de répondre. Mesurer le style, l’affaire semble une chimère. L’art est étranger à la science, défend l’esthète. D’autres y voient les facettes d’une même vérité. Soutenant que « tout est nombre », Pythagore fut sans doute précurseur en la matière. « Le monde, l'homme tout entier est dans l'alphabet » affirmera plus tard Hugo. Le croisement de ces idées est notre fil d’Ariane (article de vulgarisation).

 

- Les quanta de transition ou le trouble d’Amphitryon (2016) : cet article introduit une distance intertextuelle accordée sur le rythme, alternance de répétitions et de variations. Alors que notre première mesure se focalisait sur les retours des caractères, la dernière intègre leurs transitions. Appliquée au théâtre classique, la distance se montre pertinente à l’égard du genre, de la forme et de la critique. Elle n’incite guère à unir Corneille et Molière, l’oeuvre variée du comédien suggérant une rhapsodie tissée à travers l‘Europe (cf. article).

 

 - Appendix Vegiliana: nova disputatio (2017) : Qui a écrit l’Appendix Vergiliana ? La question est controversée depuis des siècles, et nous tentons de lever un voile à l’aide de techniques nouvelles. Nos mesures, fondées sur le rythme et les transitions entre les caractères textuels, révèle un ensemble hétéroclite et vraisemblablement hétérogène. Le Culex, authentifié par les témoignages les plus anciens, ressort du corpus et se voit attribué à Virgile. À l’inverse, les poèmes d’Ausone sont relégués hors de l’aire virgilienne. Quant à l’Aetna, son sort reste douteux comme le juge Donat (cf. article).