Ethnologue is one of the most trusted reference works on the language ecologies of the world, utilized across a broad range of disciplines. Ethnologue provides information about how languages are used around the world, who uses them, where and for what purpose. It is a comprehensive reference work cataloging over 7,000 of the world’s known living languages, as well as 360 now extinct languages.
The LINGUIST List is operated at Indiana University, Department of Linguistics. The aim of the list is to provide a forum where academic linguists can discuss linguistic issues and exchange linguistic information.
The World Atlas of Language Structures (WALS) is a large database of structural (phonological, grammatical, lexical) properties of languages gathered from descriptive materials (such as reference grammars) by a team of 55 authors.
"From the University of Texas at Austin, AILLA is a trilingual English/Spanish/Portuguese digital repository of recordings, texts, and other multimedia materials in and about the Indigenous languages of Latin America. AILLA's mission is to preserve these materials and make them available to Indigenous Peoples, researchers, friends and advocates of these languages and their speakers now and for generations to come. Most of the media files in the repository are available to the public, but some have temporary embargoes or controlled access restrictions."
AnCora consist of a Catalan corpus (AnCora-CA) and a Spanish corpus (AnCora-ES), each of them of 500,000 words. "The corpora are annotated at different levels: lemma and part of speech; syntactic constituents and functions; argument structure and thematic roles; semantic classes of the verb; denotative type of deverbal nouns; nouns related to WordNet synsets; named entities; and coreference relations."
Creado por la Universidade de Santiago de Compostela. "La Base de Datos Sintácticos del español actual (BDS) contiene el resultado de analizar manualmente las aproximadamente 160.000 cláusulas de que consta la parte contemporánea del Archivo de Textos Hispánicos de la Universidad de Santiago (ARTHUS). Cada registro del fichero central consta de 63 campos organizados en cuatro grandes bloques." Para acceder a los datos se debe crear una cuenta.
"El Catálogo de voces hispánicas ofrece muestras audiovisuales de las principales manifestaciones y variedades de la lengua española, procedentes de todo el mundo hispánico, junto a muestras de las principales lenguas originarias con las que la lengua española convive. El catálogo también incluye un pequeño conjunto de muestras de español hablado por aprendices de diverso origen lingüístico-geográfico. Las muestras van acompañadas de la transcripción de los textos, así como de información gráfica y textual sobre la lengua española y sobre su presencia en los territorios de los que proceden aquellas. Su contenido está relacionado con los usos, costumbres y características culturales de su zona de procedencia."
Includes L2 and bilingual corpora organized by language group and data type.
"Este sitio contiene grabaciones en vídeo de conversaciones naturales entre hablantes de español para ser usadas como fuentes de lengua en enseñanza y aprendizaje de esta lengua. Las grabaciones han sido hechas abordando a hablantes en lugares públicos o aprovechando reuniones de amigxs y familiares, sin guion ni ningún requerimiento previo. Bajo cada grabación, en la misma página, hay una breve DESCRIPCIÓN, una TRANSCRIPCIÓN ortográfica, una lista de los elementos de lengua interesantes que aparecen – ¿QUÉ VAMOS A ENCONTRAR? – y actividades específicas para ese vídeo – ACTIVIDADES – con indicación del nivel de lengua de lxs estudiantes a partir del cual creemos apropiado usarla."
"El corpus está compuesto por 108 vídeos (36 para cada acto de habla) de una duración total de 108 minutos y sus correspondientes transcripciones, con un total de 18737 palabras transcritas en total. El corpus se ha dividido por acto de habla (rechazo, cumplido y disculpa) y por nivel de español de los hablantes que lo forman (intermedio, avanzado y nativo)."
"The "Corpus of Spanish in the United States" (CORPEEU) is a project initiated by the Instituto Cervantes’ Observatory of the Spanish Language and Hispanic Cultures in Harvard University, in collaboration with the Academia Norteamericana de la Lengua Espanola (North American Academy of the Spanish Language, ANLE). This project aims at building a corpus of the spoken and written Spanish language that has been documented in the US since 1960. These samples are classified according to the geographical and social origin of the speakers, the date the samples were produced, as well as based on the styles, genres, and contexts of the Spanish speaking community in the US."
"Created by the Centre for Research on Bilingualism in Theory and Practice, Bangor University. The Miami corpus consists of conversations by Spanish-speakers in Florida, all of whom are bilingual in English."
"El Corpus del Español del Siglo XXI (CORPES XXI) es un corpus de referencia, iniciativa de la Real Academia Española y de la Asociación de Academias de la Lengua Española (ASALE), que aún está en construcción. Contiene textos escritos y orales, procedentes de hispanohablantes, recogidos entre 2001 y 2012. Pretende ser una continuación de CREA y CORDE. Los textos han sido extraídos de libros y prensa online, impresos y de canales de información audiovisual."
"El Corpus de Referencia del Español Actual (CREA) es un conjunto de textos de diversa procedencia, almacenados en soporte informático, del que es posible extraer información para estudiar las palabras, sus significados y sus contextos. El CREA cuenta con algo más de ciento sesenta millones de formas. Se compone de una amplia variedad de textos escritos y orales, producidos en todos los países de habla hispana desde 1975 hasta 2004. Los textos escritos, seleccionados tanto de libros como de periódicos y revistas, abarcan más de cien materias distintas. La lengua hablada está representada por transcripciones de documentos sonoros, obtenidos, en su mayor parte, de la radio y la televisión."
"El Corpus Diacrónico del Español (CORDE) es un corpus textual de todas las épocas y lugares en que se habló español, desde los inicios del idioma hasta el año 1974, en que limita con el Corpus de Referencia del Español Actual (CREA). El CORDE está diseñado para extraer información con la cual estudiar las palabras y sus significados, así como la gramática y su uso a través del tiempo. Cuenta en la actualidad con 250 millones de registros correspondientes a textos escritos de muy diferente género."
"El Corpus Diacrónico y Diatópico del Español de América reúne tres conjuntos documentales; Cordiam-Documentos, Cordiam-Literatura y Cordiam-Prensa. El Cordiam contiene sólo textos escritos en América. Por su especificidad americana, constituye una base robusta para hacer una gramática histórica comprehensiva del español y, dada su amplia diversidad geográfica, permite investigar la dialectología histórica de la lengua española en América."
Created by Mark Davies of BYU. "The corpora from Corpus do Português provide billions of words of recent data from four Portuguese-speaking countries, and they allow researchers, students, and teachers to gain insight into Portuguese in ways that are not possible from any other resource. There are three different corpora in the Corpus do Português: Web/Dialects; NOW (2012-2019); Genre/Historical."
"Es un corpus oral de referencia, elaborado en la Universidad Autónoma de Madrid, que puede descargarse gratuitamente desde su página web. Posibilita el estudio de la lengua hablada en español en 1991 y 1992. Los textos son muy variados (administrativos, científicos, jurídicos, periodísticos…), siendo el conversacional el que se recoge en mayor proporción."
COSCACH is a "massive electronic database of Chilean Spanish speech created with cutting-edge technology and solid sociolinguistic methods. It contains a total of 9,288,301 tokens, 68,705 types and 1,061,711 utterances derived from 83,002 minutes of audio recordings. The goal of the COSCACH is to make it possible to do large-scale empirical research on a wide range of linguistic issues, while at the same time allowing these phenomena studied to be analyzed in terms of a series of social variables." Users can access this data free of charge by creating a free account.
"El Corpus Oral y Sonoro del Español Rural está formado por grabaciones de la lengua hablada en enclaves rurales de la Península Ibérica. Las entrevistas se obtuvieron con el propósito de ofrecer una muestra representativa de la variedad dialectal, pero también permiten conocer los modos de vida en el campo en la época previa a la mecanización agraria y a la despoblación rural."
The UC Davis Corpus of Written Spanish, L2 and Heritage Speakers (COWSL2H) consists of short essays collected from students enrolled in university-level L2 and Heritage Spanish courses.
"The Dynamic Corpus of Chilean Spanish (Codicach) is an electronic corpus of written Chilean Spanish. It contains 896,242,344 running words in 1,838,965 files and 102 sub-corpora. It has been chunked, lemmatized, and tagged with POS and syntactic relationship information using both FreeLing and Connexor's Machinese Syntax program."
Created by Mark Davies of BYU. "The corpora from Corpus del Español provides billions of words of recent data from 21 Spanish-speaking countries, and they allow researchers, students, and teachers to gain insight into Spanish in ways that are not possible from any other resource. There are four different corpora in the Corpus del Español: Web/Dialects; NOW (2012-2019); Genre/ Historical; Google Books."
"El Corpus de Referencia del Guaraní Paraguayo Actual (COREGUAPA) es un conjunto de textos provenientes –hasta ahora– de campos temáticos en los que el guaraní ha tenido mayor producción, como la literatura y las recopilaciones folclóricas. Dichos textos están almacenados en este soporte informático, a través del cual el usuario puede extraer información para estudiar las palabras, sus significados y sus contextos."
"En su versión actual (la 2.0), el corpus para el estudio del español oral ESLORA contiene 60 horas de entrevistas semidirigidas y 20 horas de conversaciones de hablantes de Galicia grabadas entre los años 2007 y 2015."
"El Nuevo tesoro lexicográfico de la lengua española (NTLLE) es un diccionario de diccionarios, un diccionario que contiene todo el léxico de la lengua española desde el siglo xv hasta el xx, tal y como es recogido, sistematizado, definido e inventariado por los más importantes repertorios lexicográficos, sean monolingües o bilingües, dedicados a la lengua española. De este modo, el NTLLE ofrece al interesado la posibilidad de tener juntos y reunidos cerca de 70 diccionarios que ninguna biblioteca en el mundo está en condiciones de custodiar de forma conjunta, al tiempo que permite buscar de una sola vez, a través de una única operación de consulta, una o varias palabras de forma simultánea en la totalidad de los diccionarios que lo integran."
The Polinsky Language Sciences Lab at Harvard University is a linguistics lab that examines questions of language structure and its effect on the ways in which people use and process language in real time. This corpus contains information for several heritage languages including Spanish.
The Sounds of Speech website provides a comprehensive understanding of how each of the speech sounds of American English, Spanish, and German are formed. It includes animations, videos, and audio samples that describe the essential features of each of the consonants and vowels of these languages (University of Iowa).
"The goal of the Spanish in Texas project is to develop a corpus of Spanish and bilingual Spanish-English speech samples pulled from interviews and conversations among speakers of diverse personal profiles and regional origins throughout Texas."
"El corpus Val.Es.Co 3.0 recogido en esta web presenta una muestra de español coloquial. Para ello, se han transcrito sesenta y seis conversaciones y un subcorpus de quince conversaciones se ha segmentado en diferentes unidades de análisis: discursos, diálogos, turnos, intervenciones, actos y subactos."
"Digital Catalog of the Sounds of Spanish, an archive of dialectally varied, spoken language data from throughout the Spanish-speaking world. Provide audio and video files that you can use in teaching and learning more about linguistic and cultural diversity. Speech samples are cross-listed by geography, linguistic features, and conversational topics. They appear with written transcripts, dialectological annotations, and user-friendly navigational capabilities."
![]() |