En esta entrega continúo la conversación con Gustavo Dávila, ingeniero en Cibernética, especialista en plataformas conversacionales y apasionado de la interacción entre seres humanos y máquinas. Las líneas que siguen son resultado de la conversación con Gustavo a quien agradezco haber compartido su conocimiento.
¿Lograr que Word escriba solo?
La transcripción de lo que cualquier persona le dicta a Word es funcional solamente a nivel menor y hasta como juego, porque si un ser humano le dicta a ese programa, éste va a entender 70 por ciento de las palabras, entonces el usuario tal vez se ría de lo que el programa “escribe”, pues con cuatro o cinco palabras equivocadas puede cambiar mucho el contexto de la conversación. A partir de experiencias como esa, diversas empresas han desarrollado un área de la inteligencia artificial orientada hacia las plataformas conversacionales.
Actualmente ya existen tecnologías que crean una capa de entendimiento del lenguaje natural y que están basadas en inteligencia artificial para el reconocimiento del lenguaje hablado, pues, así como existe inteligencia artificial diseñada para la salud, los negocios y la predicción de desastres naturales, entre otras áreas de conocimiento, a la que nos referimos se aplica al reconocimiento del lenguaje y está basada en redes neurales, lo cual permite su entrenamiento y mejoramiento con el uso, basado en el auto aprendizaje.
Un asistente virtual de uso específico debe ser una plataforma capaz de conversar con cualquier persona y entender si se le pregunta ¿cuánto tengo de lana, o cuál es mi saldo o cuánto dinero tengo? Y todo eso debe acabar en un mismo proceso: consultar en la base de datos del banco el saldo. Ese sistema debe estar entrenado en el contexto vocal, modismos y semántica que rodean a las diferentes formas de expresión de una misma idea, que se convertirá en un proceso a atender de manera automática.
Para que la consulta mencionada sea exitosa, se debe crear un proceso similar a un embudo: la plataforma debe contestar al cliente con una pregunta para confirmar que entendió bien lo que quiere, así todo lo que sea diferente a “no” lo debe tomar como positivo, entonces así confirma que va a hacer un proceso de acuerdo con lo que el cliente solicitó.
Para que estas consultas sean exitosas, las empresas deben invertir en plataformas conversacionales basadas en natural language understanding y natural language processing y luego dedicar tiempo y esfuerzo a entrenar la plataforma, ¿de qué manera? con grabaciones del contact center, por ejemplo.
Entrenamiento de inteligencia artificial en lenguaje
Entrenar a una plataforma conversacional es una actividad semi-automática, al ingresar las grabaciones de voces al sistema, éste lo interpreta y el entrenador ajusta y calibra el “entendimiento” para que el motor distinga las equivalencias apropiadas de las incorrectas, los modismos y sus significados. Por ejemplo, aprende que cuando dicen “¡bomba!” con acento yucateco es diferente a ¡bomba! con tono de alarma.
Sin embargo, la inteligencia artificial puede tener tropezones: los sistemas de reconocimiento facial han fracasado en algunos casos porque están entrenados para identificar hombres blancos. Por ejemplo, el sistema de reconocimiento facial del iPhone X no funciona de manera apropiada con las personas orientales porque sus creadores no dedicaron un esfuerzo importante para que el motor de entrenamiento de reconocimiento facial aprendiera a distinguir los rasgos particulares de los orientales que son diferentes a los sajones y a los negros, por eso una universitaria afroamericana dice que con ella no funcionan los sistemas de reconocimiento facial, los cuales fracasan al tratar de reconocer a las mujeres afroamericanas con las cuales llegan a tener entre 30 y 50 por ciento de equivocaciones.
La inteligencia artificial es un “cúmulo” de algoritmos que hacen aprender a las plataformas conversacionales, sin embargo, su éxito se basa en la información con la que se las alimenta, pues eso es en lo que se van a basar para reconocer el lenguaje y acento con el que les hablan los seres humanos.
Hoy en día los asistentes virtuales genéricos que existen como Siri, Cortana, Google Assistant y Alexa, no permiten ser entrenados para ser utilizados en negocios, es por eso que no son adecuados para empresas y es en donde las plataformas de lenguaje natural cognitivas cobran importancia.
Redes neurales y sistemas de aprendizaje
Las redes neurales son un concepto que proviene de cuando comenzó el desarrollo de sistemas de aprendizaje: simulan o tratan de representar la forma en la que los seres humanos aprenden. Las personas aprenden mucho por repetición, entonces la inteligencia artificial se ha podido desarrollar debido a la evolución de las tecnologías de redes neurales, también llamada deep learning.
Una plataforma conversacional actual tiene un componente muy importante de redes neurales pues debe aprender, entonces está formada por varias capas: primero, la que convierte los fonemas a texto, sin embargo, es muy fácil que cambie el contexto porque podría transcribir mal un fonema, ya sea porque fue mal dicho o porque que hubo ruido en el aire.
Otra capa semántica corrige, por ejemplo no puede ser que yo diga la bicicleta iba a 200 kilómetros por hora, entonces el sistema cognitivo que está abajo del fonético corrige: no puede tratarse de una bicicleta, debe ser una motocicleta, entonces corrige a la primera capa.
Allí es donde entran los motores de redes neurales que ya aprendieron e incluyen un diccionario que le da sentido a la expresión anterior, se trata de un sistema que ya actúa, que toma decisiones porque está entrenado.
Existen sistemas que muestran un chat en un portal web, en el cual típicamente hay una persona detrás, esperando que preguntes algo y te contesta; hay otros a los que han querido hacerlos simples y económicos y entonces buscan palabras mientras tú les preguntas y si la palabra coincide con alguna de las reglas que diseñó el programador entonces lanzan información para tratar de resolver la pregunta, pero el grado de equivocación al “entender “la petición del cliente puede ser alto.
Un programador puede prever, en una plataforma en desarrollo, por ejemplo, para un restaurante, “¿qué me pueden preguntar, los precios, el menú, los horarios?” y entonces el sistema busca esas palabras y lanza toda la información de horarios, sin embargo, a veces el cliente sólo quería saber si los lunes cerraba temprano el negocio.
El futuro está en la escuela, aprendiendo
Actualmente Google está aprendiendo de nosotros, todo lo ofrece sin costo al público porque está conectado al mundo aprendiendo de todo lo que buscamos, entonces, algún día, va a desplazar esta capa, no necesariamente por los asistentes de propósito específico que creó, sino por otro sistema pues tiene la máquina de aprendizaje más grande del planeta.
Actualmente el mundo de los negocios requiere plataformas conversacionales cognitivas, que están en un nicho de la inteligencia artificial que debe ir de la mano con otras capas de inteligencia artificial. Los gurúes de la inteligencia artificial lo explican como una sola, es más la plataforma conversacional para ellos es parte de todo el ecosistema de inteligencia artificial porque si quieres que una máquina se comunique con una persona, la primera necesita entenderle bien.
Por ello, Gartner Group ha identificado a las plataformas conversacionales como una de las 10 tecnologías estratégicas para el 2018: https://www.gartner.com/smarterwithgartner/gartner-top-10-strategic-technology-trends-for-2018/.
Para finalizar, Gustavo me compartió su preocupación por el desplazamiento de la fuerza de trabajo humana debido al uso de la inteligencia artificial y es que de acuerdo con McKinsey Global Institute los robots podrían reemplazar 800 millones de empleos en 2030.