Comparando lenguajes por sus vocabularios

Desayunando domingueramente hace unos fines de semana, durante una discusión con Amália sobre la filología y el origen de las lenguas actuales (discusión interrumpida por algún «pásame el fuagrás» y «las tostadas se queman») se me ocurrió que había una forma automática de comparar idiomas, relativamente sencilla de implementar.

Consiste en lo siguiente:

  • Conseguir diccionarios digitales en distintos idiomas. Fácil, Dicts.info.
  • Crear una base de datos con todos los diccionarios, agrupando por conceptos.
  • Comparar las palabras para el mismo concepto en dos idiomas.

En cuanto a la comparación, existen varios métodos, que se pueden agrupar en dos tipos:

Ambos métodos son válidos: por una lado, hay palabras que se escriben de forma muy parecida (e.g. «sortie» en francés y «sortida» en catalán) y sin embargo se pronuncian de forma distinta. Por otro lado, también hay palabras que se escriben de forma diferente y al pronunciarlas se puede escuchar que tienen el mismo origen (e.g. «pompier» en francés y «bombero» en español).

La dificultad de la comparación fonética es la necesidad de implementar las reglas de pronunciación en cada idioma. Soundex está implementado sólo para la pronunciación inglesa, pero aún así produce comparaciones interesantes, porque unifica sonidos parecidos (e.g. las labiales b, f, p, v o las dentales d, t).

Pues bien, hemos comparado los siguientes idiomas:

Lenguaje Palabras disponibles Origen
Alemán 5802 Germánico
Catalán 2023 Romance
Danés 2978 Germánico
Español 5228 Romance
Esperanto 2283 Artificial
Finés 5346 Finhúngaro
Francés 5389 Romance
Galés 937 Celta
Gallego 544 Romance
Holandés 5313 Germánico
Húngaro 3299 Finhúngaro
Inglés 5581 Germánico
Islandés 1830 Germánico
Italiano 4993 Romance
Latín 1845 Romance
Noruego 2379 Germánico
Portugués 4589 Romance
Rumano 2528 Romance
Vasco 673 Desconocido

Y sin darle más información que los diccionarios, es decir, sin especificar el origen de cada idioma ni la relación entre ellos, el programa produce tras algunas horas esta gráfica de distancias entre lenguajes mediante comparación Levenshtein (nota el tamaño de cada bola es proporcional al número de palabras disponible en su diccionario):

Como se observa, las lenguas romances (bolas amarillas) y germanas (bolas azules) se han agrupado solas. Hay que especificar que las distancias entre idiomas en esta gráfica no son estrictamente proporcionales por la representación todos-contra-todos, que fuerza que algunos nodos tengan que situarse en los márgenes para evitar superposiciones.

También resulta interesante observar la relación de un lenguage con los demás en una representación radial. En este caso, la distancia entre los lenguajes radiales no guarda ninguna relación con su parecido, sólo cada nodo radial con el central.

Español:

Alemán:

Inglés:

Francés:

Esperanto:

Húngaro:

Hay que señalar que las distancias están normalizadas para cada gráfica para maximizar las diferencias. En el caso anterior, el idioma húngaro no se parece a nada (tan sólo al finés en algunas reglas gramaticales y poco más) y al normalizar, parece como que el gallego se parece muchísimo. Esto es obviamente un error de la comparación, y se debe al reducido número de palabras disponibles para ella (~500): la mayoría son toponímicos, nombres propios, elementos de la tabla periódica, etc. Esto da lugar a que el parecido sea aparentemente muy alto.

Finalmente, resumamos algunas de las limitaciones de este método de comparación entre lenguajes:

  • Estamos comparando sólamente el vocabulario de los lenguajes, ignorando sus reglas gramaticales. El húngaro y el finés tienen más parecido gramatical que léxico.
  • Los diccionarios utilizados son bastante limitados: unas 5800 palabras el que más, apenas 540 el que menos.
  • Un considerable porcentaje de las palabras son nombres propios, topónimos o tecnicismos, lo cual aumenta artificialmente el parecido entre idiomas, especialmente para aquéllos cuyos diccionarios tienen pocas palabras.
  • Al comparar expresiones, no tenemos en cuenta la posible inversión de sus componentes de un idioma a otro (e.g. «leap year» = «año bisiesto»). Lo mismo sucede con las palabras compuestas (e.g. «beeswax» = «cera de abeja»).