View on GitHub

openlexicon

Access to lexical databases

Le fichier Frantext.tsv présente les 246127 items non filtrés de notre corpus de textes (les textes de la base Frantext publiés après 1950 interrogés en avril 2000 ce qui constitue un corpus de 31,39 millions de mots). Il indique leurs fréquences brutes dans , et leur fréquence en million d’occurences (fréquence brute divisée par 31,39).

Cette base peut être utile pour connaître la fréquence des noms propres, des onomatopées, etc.

Les mots qui commencent avec une majuscule commencent avec “*”.

Les chaînes commençant par “%” indiquent les symboles.

Boris New

Online access Openlexicon