Siguiendo el modelo de la famosa piedra de Rosetta hallada en Egipto...

nahuatlSiguiendo el modelo de la famosa piedra de Rosetta hallada en Egipto, que data del año 196 a.C. y tiene grabado un decreto sacerdotal en tres tipos de escritura: jeroglíficos egipcios, demótica y griego antiguo, expertos en lingüística computacional trabajan en la creación de un “corpus paralelo” electrónico, que es la recopilación de 30 libros en náhuatl y en español, que sirva como materia prima para el desarrollo de herramientas tecnológicas con fines académicos y de preservación de la lengua.

En el marco del Segundo Encuentro de Humanistas Digitales, que se realiza en la Biblioteca Vasconcelos, la especialista en computación, María Ximena Gutiérrez Vasques, junto con Elena Vilchis Vargas y Rocío Cerbón Ynclán, de la carrera de Lengua y Literatura Hispánicas de la Facultad de Filosofía y Letras y becarias del Grupo de Ingeniería Lingüística (GIL), del Instituto de Ingeniería de la UNAM, expusieron el trabajo que desarrollan actualmente enfocado a la lengua náhuatl.

María Ximena Gutiérrez explicó que es un trabajo reciente de carácter multidisciplinario, que surgió el año pasado en el GIL, bajo la tutoría del investigador Gerardo Sierra, jefe de este departamento, y el doctor Alfonso Medina Urrea, de El Colegio de México. En él laboran especialistas en cómputo, lingüistas, matemáticos, “es una intersección entre humanidades y ciencias exactas”.

El proyecto implicó una búsqueda exhaustiva en bibliotecas de la UNAM y de la Escuela Nacional de Antropología e Historia del INAH de textos en náhuatl con su traducción en español. “Recopilamos todos los textos que cumplían con esta característica, había libros de muchas regiones y sobre diversos temas: tradiciones, didácticos, recetarios, científicos, musicales, literarios, etcétera”.

Al respecto, Elena Vilchis y Rocío Cerbón comentaron que hallaron un libro de anatomía, otro sobre juicios legales, algunos más de cuentos para niños y varios recetarios de Milpa Alta sobre cómo preparar ajolote y otros platillos típicos. “Al final encontramos 30 obras con todas las variantes del náhuatl y fue en lo que basamos nuestro corpus”.

Una vez reunidas, las escanearon y las pasaron a un programa de reconocimiento de caracteres, proceso que significó una ardua labor, ya que dicho programa “confundía” algunas palabras en náhuatl y no hacía la traducción correcta.

“La escritura de esta lengua no está normalizada, se basa en la fonética, por lo que tiene muchas variantes dialectales y esto complicaba el proceso. Tuvimos que hacer muchas correcciones de manera manual y fuimos creando un alfabeto con los caracteres más comunes en los libros escritos en náhuatl para evitar futuros errores”.

María Ximena Gutiérrez señaló que el trabajo tiene muchas aplicaciones potenciales que se podrían dividir en dos áreas: “Por un lado, los especialistas que estudian la lengua, en particular las lenguas indígenas como el náhuatl, podrán hacer muchos estudios con lo que hemos recopilado sobre el tipo de variación dialectal, o diacrónicos (comparar cómo ha cambiado la lengua del siglo XVI a la fecha). También se podrán hacer estudios de temas culturales porque hay recetarios, materiales didácticos, libros de tradiciones, literatura, etcétera”.

Y desde el punto de vista computacional, se podrán desarrollar sistemas de traducción automática. “Este tipo de corpus paralelo podría ser el inicio para crear herramientas y llegar un día a tener un traductor automático. Por ejemplo, que en Google nos apareciera la opción de traducir al náhuatl”.

Indicó que su labor dentro de este proyecto está enfocada a conformar un diccionario automático bilingüe. “Será un pequeño granito dentro de la gama de posibilidades que se podrían abarcar. Es importante que se empiece a ver a estas lenguas desde la perspectiva tecnológica y que se puedan desarrollar herramientas digitales para su estudio y conservación.

“La preservación de una lengua implica un trabajo muy complejo, pero consideramos que este corpus paralelo, aún en construcción, será una materia prima para el desarrollo de tecnologías lingüísticas, como traductores automáticos, un normalizador ortográfico e investigaciones de carácter cultural o académico que faciliten su aprendizaje, estudio y conservación”.

Elena Vilchis y Rocío Cerbón concluyeron que la intención de los que participan en el proyecto es la puesta en línea de este corpus paralelo, para que pueda estar al alcance de cualquier persona interesada en el tema.

El Segundo Encuentro de Humanistas Digitales terminará este viernes con la presentación de temas como El uso del video musical como documento histórico y las plataformas digitales, Renacido digital: textos clásicos para plataformas multimedia, Hacia una red global de las humanidades digitales y La digitalización de acervos fotográficos: fuentes de investigación histórica.