Generador de expresiones acertadas
Me parece una locura que realmente se puedan generar expresiones acertadas con una computadora.
Gödel tenía más razón que Chomsky, no sé qué piensa Chomsky del teorema de Gödel. En mi opinión la cuestión es que no importa cuán sofisticadas sean las reglas de generación pues siempre serán incompletas.
La cuestión sería más o menos esta:
tienes un extractor de entidades, procesas un texto en inglés, y obtienes un listado de las entidades que aparecen en el texto y su frecuencia.
Estas entidades han sido desambiguadas. Entonces puedes establecer un listado idéntico de esos mismos conceptos en otro idioma (por ejemplo en español). Pero en vez de resolver el problema de cómo traducir generando un texto en español con unas reglas de construcción de expresiones, usaríamos la Web como una enorme biblioteca de expresiones «acertadas».
Esto quiere decir que tendríamos un listado de entidades en español y que haríamos una Query con ese listado y algún marcaje que establezca criterios de «similaridad» con textos escritos en español que ya están en Internet.
por ejemplo
el conjunto de entidades detectado, sea este
a, b, c, …
es idéntico a un conjunto de entidades
a, b, c…
en el idioma al que quieres traducir el texto
Entonces el conjunto
a, b, c…
estaría ordenado por las entidades que los componen en el orden en que aparecen y por esas mismas variables ordenadas por la frecuencia en que aparecen. El porcentaje que ocupan estas entidades en el conjunto del texto del que proceden sería la base para establecer las reglas de contrucción de expresiones acertadas del documento así traducido (o generado). Más que de reglas estaríamos hablando del “índice de similaridad” de una serie oraciones obtenidas en búsquedas en la Web.
¿Se puede traducir así de un idioma a otro? ¿Se puede, por ejemplo, corregir una oración escrita en mal inglés, identificando sus errores gramaticales?
Entiendo que tras una búsqueda en Internet mediante este criterio de similaridad tendríamos un conjunto de resultados y se podría establecer cuáles de ellos son más «comunes» en la lengua a la cual queremos hacer la traducción.
¿Puede haber alguna homología estructural entre elementos de nuestra «memoria semántica» y conceptos que nos son desconocidos? ¿Podríamos aprender identificando estas homologías y permutando los nodos de estas estructuras, mediante alguna formulación matemática? ¿Podríamos hacer una especie de Análisis Semántico Latente (LSA) entre lo que conocemos y esferas del saber que desconocemos?
Nota de 2018
Debo decir que cuando escribí esto no conocía los experimentos de Robert Mercer y Elon Musk en sus empresas, en materia de traducción automática y generación de oraciones acertadas.