¿Qué es?

  CREA es un banco de datos del español contemporáneo, es decir, un conjunto de textos de diversa procedencia almacenados en soporte informático del que es posible extraer información para estudiar las palabras, sus significados, la gramática y su uso. A estos conjuntos de textos, seleccionados y ordenados según unos criterios establecidos, se les denomina corpus en la Lingüística y Lexicografía modernas.

¿Qué significa CREA?

  CREA quiere decir Corpus de Referencia del Español Actual. En la lingüística de corpus, un corpus de referencia es aquel que está diseñado para proporcionar información exhaustiva acerca de una lengua en un momento determinado de su historia.

¿Cuándo, cómo y por qué se empezó?

  CREA se empezó en 1994. Ante la necesidad de adecuar la recopilación de materiales que tradicionalmente venía llevando a cabo a los nuevos métodos de investigación lingüística y las nuevas tecnologías informáticas, la Academia, gracias al impulso renovador de su director Fernando Lázaro Carreter, decidió poner en marcha la creación del banco de datos del español.

  CREA se ha desarrollado con la colaboración de la Secretaría de Estado de Universidades, Investigación y Desarrollo, cuya aportación económica ha servido para mantener el equipo de filólogos del Instituto de Lexicografía que trabajan en él.

¿Qué extensión tiene?

  Un corpus de referencia ha de ser lo suficientemente extenso para representar todas las variedades relevantes de la lengua en cuestión. Atendiendo a este criterio, CREA cuenta hasta ahora con 100 millones de palabras, que está previsto vayan aumentando hasta conseguir al menos 125 millones.

¿De qué está compuesto?

  El banco de datos del español actual se compone de una amplia variedad de textos escritos y orales, producidos en todos los países de habla hispana desde 1975 hasta la actualidad. Los textos escritos, procedentes tanto de libros como de periódicos y revistas, abarcan más de cien materias distintas. La lengua hablada está representada por transcripciones de textos del más diverso tipo: conversaciones, noticias, reportajes, documentales, entrevistas, magacines.

  A todos los materiales procesados en el CREA se les ha añadido una serie de marcas textuales, establecidas según un estándar internacional, que permitirán múltiples posibilidades de recuperación de la información. Además, en este momento se está trabajando en la anotación lingüística de estos materiales, lo que, sin duda, facilitará enormemente el trabajo de lexicógrafos y estudiosos de la lengua.

¿Cómo se elabora y actualiza?

  Se adquieren nuevos datos diariamente. Los textos de prensa se reciben en formato electrónico y luego son procesados para convertirlos en un formato estándar. Los libros se escanean utilizando programas de reconocimiento óptico de caracteres (OCR). Además, un equipo especializado transcribe las grabaciones que se incluyen en la parte oral del corpus.

  La mezcla y variedad de los textos representados en el CREA se mantiene en constante revisión y se introducen nuevas muestras para conservar el equilibrio del material, de modo que sea representativo de las diversas tendencias del español de hoy en día.

¿Para qué se usa?

  Los lexicógrafos y lingüistas que trabajan para el Instituto de Lexicografía en los distintos diccionarios académicos tienen estaciones de trabajo en sus mesas que les dan acceso a un sofisticado proceso de recuperación de los materiales del corpus. Pueden realizar búsquedas por modelos de combinaciones de palabras, comprobar frecuencias de aparición, ver ejemplos de uso de determinadas palabras, estudiar la época o país en que tal uso resulta más frecuente, y analizar los resultados de modo que la información que se registre en los diccionarios resulte ajustada a la realidad de la lengua.

¿Para qué se puede usar?

  CREA es, hoy por hoy, la única herramienta lingüística de gran magnitud existente para nuestra lengua. No cabe duda, por tanto, de que habrá de ser el punto de partida forzoso para investigaciones de diverso tipo, principalmente aquellas estrictamente léxicas, pero también pertenecientes a campos tan dispares como el de la publicidad, la terminología, la sociolingüística, etc., así como para la elaboración de una enorme cantidad de productos derivados: gramáticas, diccionarios de todo tipo, métodos y sistemas de didáctica del español, desarrollos informáticos de traducción automática, diccionarios electrónicos, tesauros y correctores ortográficos integrados en procesadores de textos.