[Ce message passa par la liste Oulipo la première semaine d’avril 2008,

il émanait de Jean-Marc Falcoz, formidable ingénieur des chiffres et des lettres !

C’est Jean-Marc qui parle à la première personne ci-dessous]

 

Jean-Marc Falcoz :

http://membres.lycos.fr/vargolettres

 

 

Une autre façon de classer les mots

 

 

« Pour étudier la fréquence d'apparition des lettres en français dans la littérature, j'ai téléchargé un grand nombre de textes (beaucoup de romans, totalisant plus de 25 millions de lettres), tous au format ASCII, pour éviter le problème des accents.

 

Toujours à l'aide d'AJL, j'ai ensuite extrait les fréquences d'apparition de chacune des lettres.

 

Dès que le nombre total de lettres a atteint environ 2 000 000, l'ordre d'apparition des lettres n'a pratiquement plus changé.

 

Je pense donc qu'avec cette manière de compter (a = â = à = ä, etc.), l'ordre ci-dessous est « le bon » :

 

 

EASITNRUOLDCMPVQFGHBJXYZKW

 

 

 

On peut alors classer les mots selon leur « valeur de fréquence », en partant des mots composés des lettres les plus courantes (par exemple AISEE=2+4+3+1+1=11, somme des rangs des lettres), aux mots composés de lettres rares (par exemple JAZZY=21+2+24+24+23=94)

 

Pour les mots de 6 lettre, on va ainsi de SASSÉE (13) à BOMBYX (107) et pour les mots de 8 lettres de ASSÉNÉES (20) à ZUGZWANG (126).

 

Pour les mots de 14 lettres, nous avons des valeurs qui s'échelonnent entre 46 pour ASSASSINASSENT et 178 pour HYPOCYCLOÏDAUX.

 

On peut alors se faire une idée plus précise de la valeur de fréquence des mots en les représentant graphiquement.

 

 

Pour les mots de 6 lettres, on obtient l'histogramme ci-dessous ; en abscisse on trouve les valeurs de fréquences et en ordonnée le nombre de mots ayant une certaine valeur de fréquence.

 

 

Tout à gauche, on a donc SASSÉE (somme cumulée = 13) et tout à droite BOMBYX (somme = 107)

 

 

 

Et pour les mots de 10 lettres :

 

 

On voit que ces valeurs suivent à peu près une loi normale.

 

__________

 

Tableau complet des valeurs minimum et maximum pour les mots de longueur 2 à 15, selon les « points de fréquence » ci-dessous, calculés par Jean-Marc Falcoz :

 

Lettre (de la plus fréquente à la plus rare) : E A S I T N R U O L D C M P V Q F G H B J X Y Z K W

   Valeur (de la plus basse à la plus haute) : 1 2 3 4 5 6 7 8 9 X 1 2 3 4 5 6 7 8 9 V 1 2 3 4 5 6

 

[J vaut donc 21, L = 10... et HYPOPHOSPHOREUX = 190]

                                            

 2 : min = AA (4)                max = WU (34)

 3 : min = ASE (6)               max = WOK (60)

 4 : min = ESSE (8)              max = JAZZ (71)

 5 : min = AISÉE (11)            max = JAZZY (94)

 6 : min = SASSÉE (13)           max = BOMBYX (107)
 7 : min = SASSÉES (16)          max = KOLKHOZ (121)

 8 : min = ASSÉNÉES (20)         max = ZUGZWANG (126)

 9 : min = SASSASSES (23)        max = ZUGZWANGS (129)

10 : min = ASSÉNASSES (27)       max = HYGROPHOBE (139)

11 : min = ASSASSINÉES (31)      max = KIBBOUTZNIK (150)

12 : min = RESSASSASSES (34)     max = HYPOCHLOREUX (153)

13 : min = ASSASSINASSES (38)    max = ZYGOPHYLLACÉE (166)

14 : min = ASSASSINASSENT (46)   max = HYPOCYCLOÏDAUX (178)

15 : min = RESSAISISSAIENT (51)  max = HYPOPHOSPHOREUX (190)    »

 

 

 

Merci Jean-Marc !

[Ce courrier allait être le premier d’une longue série d’autres, de plus en plus passionnants !]

 

 

________________________________________

 

Retour à la page d’accueil du site, ici.