Métodos de lexicometría sociolingüística: análisis del corpus oral contemporáneo PRESEEA-Santander
Resumen
La lexicometría es un método que nos permite identificar unidades temáticas derivadas de la extracción automática de patrones de conocimiento en datos de naturaleza textual (Romero, Alarcón y García, 2018). De su aplicación emergen las tendencias léxicas de un corpus a través de la cuantificación de la ocurrencia de las palabras. Los distintos estilos léxicos sociolingüísticos se han estudiado en amplias variedades de las lenguas del mundo, incluida la lengua española. Sin embargo, no existen, en los estudios llegados a nuestro alcance hasta el momento, suficientes análisis cuantitativos del léxico de un corpus sociolingüístico oral contemporáneo.
El objetivo general de este artículo es detectar las preferencias de uso del vocabulario de la lengua española hablada en el marco de la lexicometría sociolingüística. Para ello, se analizó una muestra representativa de un corpus estratificado en torno a tres variables (sexo, edad, nivel educativo). Dicha muestra pertenece al corpus PRESEEA-Santander, enmarcado en el Proyecto para el Estudio Sociolingüístico del Español de España y América (Moreno Fernández, 2021). En el análisis se empleó el sistema LYNEAL (Letras y Números en Análisis Lingüístico) (Autor, 2021), así como el software estadístico en código abierto R.
La lexicometría es un método que nos permite identificar unidades temáticas derivadas de la extracción automática de patrones de conocimiento en datos de naturaleza textual (Romero, Alarcón y García, 2018). De su aplicación emergen las tendencias léxicas de un corpus a través de la cuantificación de la ocurrencia de las palabras. Los distintos estilos léxicos sociolingüísticos se han estudiado en amplias variedades de las lenguas del mundo, incluida la lengua española. Sin embargo, no existen, en los estudios llegados a nuestro alcance hasta el momento, suficientes análisis cuantitativos del léxico de un corpus sociolingüístico oral contemporáneo.El objetivo general de este artículo es detectar las preferencias de uso del vocabulario de la lengua española hablada en el marco de la lexicometría sociolingüística. Para ello, se analizó una muestra representativa de un corpus estratificado en torno a tres variables (sexo, edad, nivel educativo). Dicha muestra pertenece al corpus PRESEEA-Santander, enmarcado en el Proyecto para el Estudio Sociolingüístico del Español de España y América (Moreno Fernández, 2021). En el análisis se empleó el sistema LYNEAL (Letras y Números en Análisis Lingüístico) (Ueda, 2021), así como el software estadístico en código abierto R. Los resultados apuntan a que el sexo se revela como una variable importante en el proceso de variación léxica al detectarse, entre otros hallazgos, el uso del estilo nominal sobre el verbal y el empleo preferente de adverbios en -mente por parte del hombre; con respecto a la edad, se advierte la tendencia al empleo del truncamiento léxico en la generación de jóvenes y en el género mujer; por último, se aprecia la concentración de uso de muchísimo en mujer, joven, de nivel primario de instrucción.
Descargas
Descarga artículo
Licencia
La revista Círculo de Lingüística Aplicada a la Comunicación, para fomentar el intercambio global del conocimiento, facilita el acceso sin restricciones a sus contenidos desde el momento de su publicación en la presente edición electrónica, y por eso es una revista de acceso abierto. Los originales publicados en esta revista son propiedad de la Universidad Complutense de Madrid y es obligatorio citar su procedencia en cualquier reproducción total o parcial. Todos los contenidos se distribuyen bajo una licencia de uso y distribución Creative Commons Reconocimiento 4.0 (CC BY 4.0). Esta circunstancia ha de hacerse constar expresamente de esta forma cuando sea necesario. Puede consultar la versión informativa y el texto legal de la licencia.