ABU : la Bibliothèque Universelle (de l'Association des Bibliophiles Universels)
Corpus of texts, ranging from classic works of French literature to various kinds of non-fiction prose and technical writing. There is also a Provençal database that includes texts in their original spellings. Genres include novels, verse, theater, journalism, essays, correspondence, and treatises. Subjects include literary criticism, biology, history, economics, and philosophy. In most cases standard scholarly editions were used in converting the text into machine-readable form, and the data contain page references to these editions.
Centre National de Ressources Textuelles et Lexicales (CNRTL)
Créé en 2005 par le CNRS, le CNRTL fédère au sein d’un portail unique, un ensemble de ressources linguistiques informatisées et d’outils de traitement de la langue.
Le Corpus de Français Parlé Parisien (CFPP2000)
"Le corpus CFPP2000 est composé d'un ensemble d'interviews sur les quartiers de Paris et de la proche banlieue."
Le Corpus de Français Parlé à Bruxelles (CFPB)
"Le CFPB se fixe comme objectif ultime de fournir des données parallèles à celles du CFPP 2000, et plus particulièrement de :
"Son but est de proposer une infrastructure en réseau offrant un réservoir de données (corpus, lexiques, dictionnaires, etc.) et d’outils sur la langue et son traitement clairement disponibles et documentés qui :
"Sketch Engine is designed for linguists, lexicologists, lexicographers, researchers, translators, terminologists, teachers and students working with French to easily discover what is typical and frequent in the language and to notice phenomena which would go unnoticed without a large sample of French text. "
Traitement de Corpus Oraux en Français (TCOF)
"Le projet « Traitement de Corpus Oraux en Français » (TCOF) est né de la volonté de conserver des corpus oraux constitués dans les années 80-90 à des fins de recherches personnelles. L’équipe constituée au sein du laboratoire ATILF (UMR CNRS 7118) a élaboré l’architecture d’une première base de données de corpus alignés texte/son avec Transcriber. Celle-ci s’est progressivement enrichie à partir des années 2000 grâce à la collaboration d’autres (enseignants-)chercheurs, d’ITA et d’étudiants en Sciences du langage de l’université de Nancy. Aujourd'hui, l’équipe met à disposition de la communauté scientifique une partie de ses ressources."