13/03/2014 – Español al Día

Calcular correctamente el porcentaje de apariciones de letras en el idioma español es un desafío y tanto. Tal vez sea algo imposible de hacer, porque el lenguaje no es un fenómeno estático, sino variable. Pero es posible que se puedan establecer algunos parámetros que permitan tener una visión aproximada y general del comportamiento de la lengua, y más específicamente de las letras, no importando que idioma sea el que está siendo estudiado.

Existe cierto grado de arbitrariedad en el análisis del caso. Pero el fenómeno lingüístico que se pretende estudiar puede ser reducido a un espacio específico, por ejemplo, a una obra literaria de gran importancia para la sociedad, que podría ser, digamos: Don Quijote, Doña Bárbara, Martín Fierro, La Regenta o Cien Años de Soledad.

Para hacer ese análisis es necesario considerar factores como: la interpretación personal o del grupo, el estilo narrativo, el uso de los verbos, el vocabulario del documento, los símbolos, los parámetros técnicos y la presencia de caracteres no alfabéticos.

Porcentaje de apariciones de letras en español. — _{Estimativa de la frecuencia de uso de las letras en el idioma español, conforme el análisis de algunas obras literarias. Ref.: https://es.wikipedia.org.}

Al representar esos valores en un gráfico, siguiendo el orden alfabético, notamos las oscilaciones que sufren las palabras. Por otro lado, si el orden observado por algunos está correcto, en tal caso, al ser ordenadas las letras del idioma español, de mayor a menor frecuencia de uso, se puede obtener el siguiente orden o resultado: E, A, O, S, R, N, I, D, L, C, T, U, M, P, B, G, V, Y, Q, H, F, Z, J, Ñ, X, K, W.

_{Frecuencia de empleo de las letras en castellano o español, siguiendo el orden alfabético del abecedario. Ref.: https://es.wikipedia.org.}

Considerando los datos presentes en la tabla anterior, se puede decir que:

Las vocales pueden ocupar alrededor del 45% del texto.
Las vocales E y A son identificables fácilmente, destacándose sobre todas las otras letras, pero les siguen las vocales O, I y U, en orden decreciente, conforme el porcentaje de apariciones de cada una de ellas.
Las consonantes más usadas: S, R, N, D, L, C (aparecen con una frecuencia de un 37%).
Las seis letras que son usadas con menos frecuentes son: Z, J, Ñ, X, K, W (sumadas tienen una frecuencia que apenas supera el 1,5%).

Veamos, por ejemplo, los siguientes parámetros, mostrados por un tal Agustín, en su artículo: Frecuencia de las letras en castellano: «La Regenta»:

_{Frecuencia de empleo de las letras en castellano o español, en la obra Don Quijote, siguiendo el orden decreciente de uso de las letras del abecedario, sin considerar el orden natural del abecedario, los espacios y los símbolos especiales. El texto del Quijote contiene 1.640.502 letras. Ref.: https://es.wikipedia.org.}

_{Frecuencia de empleo de las letras en castellano o español, siguiendo el orden decreciente de uso de las letras del abecedario, en la obra Don Quijote, de Miguel de Cervantes, desconsiderando espacio y símbolos especiales. Ref.: Autor, con base en los datos expuestos en Frecuencia de las letras en castellano: «La Regenta», de Leopoldo Alas (Clarín).}

_{Frecuencia de empleo de las letras en castellano o español, en la obra La Regenta, de Leopoldo Alas (Clarín), siguiendo el orden decreciente de uso de las letras, considerando espacio y símbolos especiales y sin considerar el orden natural del abecedario. El texto de La Regenta contiene 1.734.699 letras. Ref.: https://es.wikipedia.org.}

Como se trata de una cuestión idiomática y de una hipótesis, es posible que el margen de diferenciación de los fenómenos aquí expuestos de forma superficial sea corroborado o negado por otras investigaciones, o lo que sea mejor.

Analicemos los datos presentes en la siguiente tabla, relacionada con la obra La Regenta:

^{_{Frecuencia de empleo de las letras en castellano o español, siguiendo el orden decreciente de uso de las letras del abecedario, en la obra La Regenta, de Leopoldo Alas (Clarín), desconsiderando espacio y símbolos especiales. Ref.: Autor, Basado en los datos expuestos en Frecuencia de las letras en castellano: «La Regenta», de Leopoldo Alas (Clarín).}}

A continuación, transcribimos las siguientes observaciones:

1. El porcentaje de caracteres no procesados (signos de admiración, interrogación, paréntesis, etc.) es tan solo de un 2,3 %.
2. Como se esperaba, el separador o espacio es el signo más abundante, casi duplicando a la letra más frecuente.
3. En contra de la extendida creencia de que la letra E es bastante más frecuente que la A (un 14% frente a un 12%, en el caso de El Quijote), los resultados muestran a que la letra A es algo más abundante que la letra E (un 11% frente a un 10%). La creencia errónea de la supremacía de la E es atribuible al uso de trabajos realizados sobre el idioma inglés donde, al parecer, dichas frecuencias están invertidas. De todos modos, convendría revisar la estadística para el caso de El Quijote o de alguna otra obra moderna.
4. La letra R es más abundante que la N.
5. Los signos de puntuación [ , ] y [ . ] son más abundantes que la letra Q y siguientes. En cambio, como cabía esperar, los signos [ ; ] y [ : ] son menos abundantes, aunque el [ ; ] a la Ñ el segundo a la K. Lógicamente, salvo que el texto incluya nombres o palabras extranjeras, la letra W es la menos frecuente de todas.
6. La letra I, cuando incluye la variable acentuada, es más frecuente que la L.

En resumidas cuentas, partiendo de la tesis de que los datos aquí presentados representan un nivel aceptable de la realidad, observamos también que:

1. Cuando comparamos varias obras de referencia, existe una secuencia relativamente parecida en el comportamiento de las letras del idioma español empleadas por diversos escritores.

2. Puede notarse que las letras A y E (vocales) se intercalan en su uso e importancia, dependiendo de la obra analizada, y su proporcionalidad de uso puede variar entre un 14% a 10%, aun así, es bien más seguro que la letra A asuma el liderazgo, en tesis, en la mayoría de las obras.

3. Las letras O, S, R, N, I, L, D, U, T, C, M y P tienen una tendencia decreciente, con comportamiento muy parecido en las dos obras aquí consideradas, oscilando entre un 12% y un 2% de utilización.

4. Por otro lado, las letras Q, Y, J, Z, X y W tienen un comportamiento oscilante, pero bajo en su uso, claro, que puede variar entre un 2% de empleo para bajo, hasta cero.

5. Igualmente, las letras V, G, H, F, Z, Ñ, X, K y Q tienen un nivel de empleo que no ultrapasa el 2%, con un nivel de uso intermedio de 1%, aproximadamente.

En resumidas cuentas, sabemos que este es un tema complexo que no se soluciona con un simple gráfico o con una tabla de datos extraídos de una situación específica, pero por lo menos, este modelo teórico establece un parámetro de investigación y estudio más profundo, por lo que se hace necesario emplear herramientas científicas que permitan hacer comparaciones más acertadas.

Referencias:
Fletcher Pratt, Secret and Urgent: the Story of Codes and Ciphers Blue Ribbon Books, 1939, pp. 254-255.

Agustín (administrador de Kriptópolis). «Frecuencia de las letras en castellano: «La Regenta» – Kriptópolis, criptografía y seguridad.». Archivado desde el original el 16 de diciembre de 2013.

Trost, Stefan. “Alfabeto y Frecuencias de Letras: Español.” Stefan Trost, https://es.sttmedia.com/frecuencias-de-letras-espanol. Acceso: 27 May 2024.

Fastercapital.com, https://fastercapital.com/es/contenido/Descifrar-el-codigo–comprender-la-frecuencia-de-las-letras-en-El-ahorcado.html. Acceso: 27 May 2024.

Rae.Es, https://corpus.rae.es/lfrecuencias.html. Acceso: 27 May 2024.