View on GitHub

openlexicon

Access to lexical databases

How to add a new dataset

Add the table(s) on a server

If the dataset is not yet on the Internet, you need to put it on a web server.

Here we show an example for http://www.lexique.org maintainers:

create a json description file

If you plan to use the data fetchers, it is necessary to create a .json file describing the dataset, and to push it to http://github.com/chrplr/openlexicon/datasets-info

Here is, for example, the .json file associated to Lexique3

{
    "_comment": "# Time-stamp: <2019-04-30 17:01:41 christophe@pallier.org>",
    "name": "lexique3",
    "description": "Lexique382 est une base de données lexicales du français qui fournit pour ~140000 mots du français: les représentations orthographiques et phonémiques, les lemmes associés, la syllabation, la catégorie grammaticale, le genre et le nombre, les fréquences dans un corpus de livres et dans un corpus de sous-titres de filems, etc.",
    "website": "http://www.lexique.org",
    "readme": "https://chrplr.github.io/openlexicon/datasets-info/Lexique382/README-Lexique.html",
    "urls": [{
            "url": "http://www.lexique.org/databases/Lexique382/Lexique382.tsv",
            "bytes": 25850842,
            "md5sum": "28d18d7ac1464d09e379f30995d9d605"
        },
        {
            "url": "http://www.lexique.org/databases/Lexique382/Lexique382.rds",
            "bytes": 5923674,
            "md5sum": "e3e5f47409b91fdb620edfdd960dd7a5"
        }
    ],
    "type": "tsv",
    "tags": ["french", "frequencies"]
}

Note: the filesizes (bytes) and md5sum are obtained on the command line by running

 ls -l *.{rds,tsv}
 md5sum *.{rds,tsv}

Back to OpenLexicon

Time-stamp: <2019-07-17 19:05:17 christophe@pallier.org>