Desayunando domingueramente hace unos fines de semana, durante una discusión con Amália sobre la filología y el origen de las lenguas actuales (discusión interrumpida por algún «pásame el fuagrás» y «las tostadas se queman») se me ocurrió que había una forma automática de comparar idiomas, relativamente sencilla de implementar.
Consiste en lo siguiente:
- Conseguir diccionarios digitales en distintos idiomas. Fácil, Dicts.info.
- Crear una base de datos con todos los diccionarios, agrupando por conceptos.
- Comparar las palabras para el mismo concepto en dos idiomas.
En cuanto a la comparación, existen varios métodos, que se pueden agrupar en dos tipos:
- Por escritura: por ejemplo, Levenshtein.
- Por pronunciación: por ejemplo, Soundex o Double Metaphone.
Ambos métodos son válidos: por una lado, hay palabras que se escriben de forma muy parecida (e.g. «sortie» en francés y «sortida» en catalán) y sin embargo se pronuncian de forma distinta. Por otro lado, también hay palabras que se escriben de forma diferente y al pronunciarlas se puede escuchar que tienen el mismo origen (e.g. «pompier» en francés y «bombero» en español).
La dificultad de la comparación fonética es la necesidad de implementar las reglas de pronunciación en cada idioma. Soundex está implementado sólo para la pronunciación inglesa, pero aún así produce comparaciones interesantes, porque unifica sonidos parecidos (e.g. las labiales b, f, p, v o las dentales d, t).
Pues bien, hemos comparado los siguientes idiomas:
Lenguaje | Palabras disponibles | Origen |
Alemán | 5802 | Germánico |
Catalán | 2023 | Romance |
Danés | 2978 | Germánico |
Español | 5228 | Romance |
Esperanto | 2283 | Artificial |
Finés | 5346 | Finhúngaro |
Francés | 5389 | Romance |
Galés | 937 | Celta |
Gallego | 544 | Romance |
Holandés | 5313 | Germánico |
Húngaro | 3299 | Finhúngaro |
Inglés | 5581 | Germánico |
Islandés | 1830 | Germánico |
Italiano | 4993 | Romance |
Latín | 1845 | Romance |
Noruego | 2379 | Germánico |
Portugués | 4589 | Romance |
Rumano | 2528 | Romance |
Vasco | 673 | Desconocido |
Y sin darle más información que los diccionarios, es decir, sin especificar el origen de cada idioma ni la relación entre ellos, el programa produce tras algunas horas esta gráfica de distancias entre lenguajes mediante comparación Levenshtein (nota el tamaño de cada bola es proporcional al número de palabras disponible en su diccionario):
Como se observa, las lenguas romances (bolas amarillas) y germanas (bolas azules) se han agrupado solas. Hay que especificar que las distancias entre idiomas en esta gráfica no son estrictamente proporcionales por la representación todos-contra-todos, que fuerza que algunos nodos tengan que situarse en los márgenes para evitar superposiciones.
También resulta interesante observar la relación de un lenguage con los demás en una representación radial. En este caso, la distancia entre los lenguajes radiales no guarda ninguna relación con su parecido, sólo cada nodo radial con el central.
Hay que señalar que las distancias están normalizadas para cada gráfica para maximizar las diferencias. En el caso anterior, el idioma húngaro no se parece a nada (tan sólo al finés en algunas reglas gramaticales y poco más) y al normalizar, parece como que el gallego se parece muchísimo. Esto es obviamente un error de la comparación, y se debe al reducido número de palabras disponibles para ella (~500): la mayoría son toponímicos, nombres propios, elementos de la tabla periódica, etc. Esto da lugar a que el parecido sea aparentemente muy alto.
Finalmente, resumamos algunas de las limitaciones de este método de comparación entre lenguajes:
- Estamos comparando sólamente el vocabulario de los lenguajes, ignorando sus reglas gramaticales. El húngaro y el finés tienen más parecido gramatical que léxico.
- Los diccionarios utilizados son bastante limitados: unas 5800 palabras el que más, apenas 540 el que menos.
- Un considerable porcentaje de las palabras son nombres propios, topónimos o tecnicismos, lo cual aumenta artificialmente el parecido entre idiomas, especialmente para aquéllos cuyos diccionarios tienen pocas palabras.
- Al comparar expresiones, no tenemos en cuenta la posible inversión de sus componentes de un idioma a otro (e.g. «leap year» = «año bisiesto»). Lo mismo sucede con las palabras compuestas (e.g. «beeswax» = «cera de abeja»).