Guides @ UF: French and Francophone Linguistics Guide: Finding French Corpora

French Corpora Links

ABU : la Bibliothèque Universelle (de l'Association des Bibliophiles Universels)

L'accès libre au texte intégral d'oeuvres du domaine public francophone sur Internet depuis 1993.

Corpus of texts, ranging from classic works of French literature to various kinds of non-fiction prose and technical writing. There is also a Provençal database that includes texts in their original spellings. Genres include novels, verse, theater, journalism, essays, correspondence, and treatises. Subjects include literary criticism, biology, history, economics, and philosophy. In most cases standard scholarly editions were used in converting the text into machine-readable form, and the data contain page references to these editions.

Centre de recherche interuniversitaire sur le français en usage au Québec

Donne accès à:

Centre National de Ressources Textuelles et Lexicales (CNRTL)

Créé en 2005 par le CNRS, le CNRTL fédère au sein d’un portail unique, un ensemble de ressources linguistiques informatisées et d’outils de traitement de la langue.

CoCoON

"CoCoON pour « COllections de COrpus Oraux Numériques » est une plateforme technique qui accompagne les producteurs de ressources orales, à créer, structurer et archiver leurs corpus ; un corpus pouvant se composer d'enregistrements (en général audio) accompagnés éventuellement d'annotations de ces enregistrements."

Le Corpus de Français Parlé Parisien (CFPP2000)

"Le corpus CFPP2000 est composé d'un ensemble d'interviews sur les quartiers de Paris et de la proche banlieue."

Le Corpus de Français Parlé à Bruxelles (CFPB)

"Le CFPB se fixe comme objectif ultime de fournir des données parallèles à celles du CFPP 2000, et plus particulièrement de :

constituer une base de données interrogeable en libre-accès ;
développer des analyses variationistes du français oral utilisé à Bruxelles pour contribuer au projet de grammaire variationiste du français planifié par le CFPP2000."

ORTOLANG: Corpus

"Son but est de proposer une infrastructure en réseau offrant un réservoir de données (corpus, lexiques, dictionnaires, etc.) et d’outils sur la langue et son traitement clairement disponibles et documentés qui :

permette, au travers d’une véritable mutualisation, à la recherche sur l’analyse, la modélisation et le traitement automatique de notre langue de se hisser au meilleur niveau international;
facilite l’usage et le transfert des ressources et outils mis en place au sein des laboratoires publics vers les partenaires industriels, en particulier vers les PME qui souvent ne peuvent pas se permettre de développer de telles ressources et outils de traitement de la langue compte tenu de leurs coûts de réalisation;
valorise le français et les langues de France à travers un partage des connaissances sur notre langue accumulées par les laboratoires publics."

Sketch Engine: French Corpora

"Sketch Engine is designed for linguists, lexicologists, lexicographers, researchers, translators, terminologists, teachers and students working with French to easily discover what is typical and frequent in the language and to notice phenomena which would go unnoticed without a large sample of French text. "

Traitement de Corpus Oraux en Français (TCOF)

"Le projet « Traitement de Corpus Oraux en Français » (TCOF) est né de la volonté de conserver des corpus oraux constitués dans les années 80-90 à des fins de recherches personnelles. L’équipe constituée au sein du laboratoire ATILF (UMR CNRS 7118) a élaboré l’architecture d’une première base de données de corpus alignés texte/son avec Transcriber. Celle-ci s’est progressivement enrichie à partir des années 2000 grâce à la collaboration d’autres (enseignants-)chercheurs, d’ITA et d’étudiants en Sciences du langage de l’université de Nancy. Aujourd'hui, l’équipe met à disposition de la communauté scientifique une partie de ses ressources."