Comparando lenguajes por sus vocabularios

Desayunando domingueramente hace unos fines de semana, durante una discusión con Amália sobre la filología y el origen de las lenguas actuales (discusión interrumpida por algún «pásame el fuagrás» y «las tostadas se queman») se me ocurrió que había una forma automática de comparar idiomas, relativamente sencilla de implementar.

Consiste en lo siguiente:

Conseguir diccionarios digitales en distintos idiomas. Fácil, Dicts.info.
Crear una base de datos con todos los diccionarios, agrupando por conceptos.
Comparar las palabras para el mismo concepto en dos idiomas.

En cuanto a la comparación, existen varios métodos, que se pueden agrupar en dos tipos:

Por escritura: por ejemplo, Levenshtein.
Por pronunciación: por ejemplo, Soundex o Double Metaphone.

Ambos métodos son válidos: por una lado, hay palabras que se escriben de forma muy parecida (e.g. «sortie» en francés y «sortida» en catalán) y sin embargo se pronuncian de forma distinta. Por otro lado, también hay palabras que se escriben de forma diferente y al pronunciarlas se puede escuchar que tienen el mismo origen (e.g. «pompier» en francés y «bombero» en español).

La dificultad de la comparación fonética es la necesidad de implementar las reglas de pronunciación en cada idioma. Soundex está implementado sólo para la pronunciación inglesa, pero aún así produce comparaciones interesantes, porque unifica sonidos parecidos (e.g. las labiales b, f, p, v o las dentales d, t).

Pues bien, hemos comparado los siguientes idiomas:

Lenguaje	Palabras disponibles	Origen
Alemán	5802	Germánico
Catalán	2023	Romance
Danés	2978	Germánico
Español	5228	Romance
Esperanto	2283	Artificial
Finés	5346	Finhúngaro
Francés	5389	Romance
Galés	937	Celta
Gallego	544	Romance
Holandés	5313	Germánico
Húngaro	3299	Finhúngaro
Inglés	5581	Germánico
Islandés	1830	Germánico
Italiano	4993	Romance
Latín	1845	Romance
Noruego	2379	Germánico
Portugués	4589	Romance
Rumano	2528	Romance
Vasco	673	Desconocido

Y sin darle más información que los diccionarios, es decir, sin especificar el origen de cada idioma ni la relación entre ellos, el programa produce tras algunas horas esta gráfica de distancias entre lenguajes mediante comparación Levenshtein (nota el tamaño de cada bola es proporcional al número de palabras disponible en su diccionario):

Como se observa, las lenguas romances (bolas amarillas) y germanas (bolas azules) se han agrupado solas. Hay que especificar que las distancias entre idiomas en esta gráfica no son estrictamente proporcionales por la representación todos-contra-todos, que fuerza que algunos nodos tengan que situarse en los márgenes para evitar superposiciones.

También resulta interesante observar la relación de un lenguage con los demás en una representación radial. En este caso, la distancia entre los lenguajes radiales no guarda ninguna relación con su parecido, sólo cada nodo radial con el central.

Español:

Alemán:

Inglés:

Francés:

Esperanto:

Húngaro:

Hay que señalar que las distancias están normalizadas para cada gráfica para maximizar las diferencias. En el caso anterior, el idioma húngaro no se parece a nada (tan sólo al finés en algunas reglas gramaticales y poco más) y al normalizar, parece como que el gallego se parece muchísimo. Esto es obviamente un error de la comparación, y se debe al reducido número de palabras disponibles para ella (~500): la mayoría son toponímicos, nombres propios, elementos de la tabla periódica, etc. Esto da lugar a que el parecido sea aparentemente muy alto.

Finalmente, resumamos algunas de las limitaciones de este método de comparación entre lenguajes:

Estamos comparando sólamente el vocabulario de los lenguajes, ignorando sus reglas gramaticales. El húngaro y el finés tienen más parecido gramatical que léxico.
Los diccionarios utilizados son bastante limitados: unas 5800 palabras el que más, apenas 540 el que menos.
Un considerable porcentaje de las palabras son nombres propios, topónimos o tecnicismos, lo cual aumenta artificialmente el parecido entre idiomas, especialmente para aquéllos cuyos diccionarios tienen pocas palabras.
Al comparar expresiones, no tenemos en cuenta la posible inversión de sus componentes de un idioma a otro (e.g. «leap year» = «año bisiesto»). Lo mismo sucede con las palabras compuestas (e.g. «beeswax» = «cera de abeja»).

L	M	X	J	V	S	D
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Comparando lenguajes por sus vocabularios

Últimos artículos

Archivo

Comparando lenguajes por sus vocabularios

Últimos artículos

Archivo

Etiquetas