Por Luis Gerardo Baeza el 3 de junio de 2019 6:14:20 PDT

La adopción de los asistentes de voz es inminente
¿Alguna vez le has preguntado a tu teléfono inteligente cómo se llama la canción que está sonando? ¿O has preguntado a Alexa que guarde un recordatorio? ¿Le has pedido al control por voz de tu automóvil que llame al celular de papá? Si respondiste si a alguna de las preguntas anteriores, entonces perteneces al 52% de las personas que de acuerdo con Hubspot han utilizado un asistente por voz como Google Assistant, Alexa o Siri.

Fuente: The state of the voice: looking ahead to 2019
Algo que me resulta interesante remarcar de este estudio es que del 48% restante que no ha utilizado un asistente de voz, solo el 4% aceptó no estar familiarizado con el término.
En su libro Vivir es un asunto urgente, Mario Alonso Puig menciona que “El lenguaje no sólo describe la realidad, sino que además es capaz de crearla.” La razón por la cual decidí tomar esta frase como título del artículo, es porque me parece que estamos muy cerca de poder observar a esta frase convertirse en realidad en el sentido literal de la misma, y en parte se debe a los avances logrados recientemente con los asistentes de voz.
Los fabricantes de asistentes de voz han seguido una estrategia que ha probado ser la correcta a lo largo de la historia del hardware y software: construir plataformas y no productos, dejando así a los desarrolladores ser los responsables del crecimiento de la cantidad de comandos de voz.
Al día de hoy esta estrategia parece estar funcionando, ya que la cantidad de comandos de voz publicados crece cada vez más rápido, pareciera que se intenta habilitar la ejecución de cualquier acción a través de comandos de voz en Amazon Alexa, que cuenta con más de 80,000 comandos de voz en todo el mundo (1), o en Google Home que ya cuenta con 4,253 tan solo en Estados Unidos (2), o en Siri que a pesar de no contar con un número oficial de comandos publicados, diversos posts en internet mencionan que cuenta con más de 600 (3).
Desde ordenar una pizza, pedir un Uber, preguntar por el clima, hacer una lista de compras, ¿Para qué está usando más la gente a los asistentes virtuales? Es sorprendente que según el análisis de HubSpot el 15% lo utiliza para realizar compras.

Fuente: The state of the voice: looking ahead to 2019
Probablemente esta es una de las razones que explicaría el crecimiento tan acelerado de los comandos disponibles, ya que tanto los grandes retaileros como nuevos jugadores pequeños están buscando colarse en esta plataforma para ser de los primeros en ganar la mente de los usuarios con fines comerciales.
Un ejemplo de mi comentario anterior, es Wal-Mart, quien en abril 2019 anunció que los usuarios de Google Home podrán hacer su lista del súper en el gigante del retail solamente a través del comando “Google, talk to Wal-Mart”. Algunos expertos dicen que esto está alineado a la estrategia de reforzar el crecimiento de la producción y venta de comida por parte del gigante azul, que representa $200 mil millones de dólares al año para Wal-Mart (4).
Ejemplos reales en México
IBM, uno de los fabricantes de software de procesamiento de lenguaje natural más relevantes del mercado, promueve la atención a clientes como uno de los casos de uso más relevantes de asistentes virtuales. En 2018 fue muy sonado en México el caso de la implementación de un asistente de voz parte de BBVA en la atención telefónica de clientes, ocasionando la reducción y despido de hasta 1,500 personas de acuerdo con Forbes (5). A pesar de que no cuento con un análisis a profundidad que respalde este punto de vista (sería interesante realizarlo), BBVA observó una disminución considerable en el número de quejas por parte de los clientes. Según informa El Universal, en 2018 los bancos alcanzaron el máximo histórico en quejas, con un total de 9 millones 397 mil reclamos registrados en la Comisión Nacional para la Protección y Defensa de los Usuarios (CONDUSEF).
A pesar de que el incremento en número de quejas entre 2017 y 2018 fue de un 6.3%, BBVA mostró una disminución en de casi el 50%.

Fuente: El Universal
Si consideramos que el despido masivo de empleados por parte de BBVA fue anunciado a mitad de año, pareciera tener sentido que en parte la disminución en el número de quejas se debió a una mejor atención a través del asistente de voz habilitado para atención a los clientes.
Otro ejemplo de la aplicación de las tecnologías de asistentes de voz en México es RoomieBot, una startup reconocida por MIT, FORBES, Excelsior. Esta empresa creó un robot asistente para el hogar que puede asistirte en el control de tu casa, convirtiéndola en inteligente una vez que cuentas con los aditamentos necesarios (como un Samsung Smart Hub por ejemplo). Adicional al uso del robot como asistencia en el hogar, RoomieBot vende su producto a empresas para diferentes casos de uso, por ejemplo: self check-in en hoteles, promoción y venta de productos en sucursales, entre muchos otros.

Checa su página web, ya que también proveen capacitación en el uso de estas tecnologías: www.roomie-it.org
Las tecnologías detrás de los asistentes
Después de platicar acerca de la relevancia de los asistentes virtuales en la actualidad, quisiera comentar un poco acerca de algunas de las tecnologías que permiten su existencia y funcionamiento.
Para ello vamos a explorar 3 tecnologías que considero importantes: natural language processing (NLP), automatic speech recognition (ASR) y speech synteshis.
- Natural language processing es un campo de estudio de Machine Learning y refiere la habilidad de un sistema para analizar, manipular, entender e incluso generar lenguaje humano. Este campo está dividido en dos grandes disciplinas: el entendimiento de lenguaje NLU (por sus siglas en inglés Natural Language Understanding) y la generación de lenguaje NLG por sus siglas en inglés Natural language generation)
- Automatic speech recognition por su parte, hace referencia al reconocimiento las palabras presentes en la voz humana a través del procesamiento de señales acústicas.
- Speech synthesis a su vez, es el proceso de generación de voz humana de manera sintética, a partir de un texto escrito.
La forma en la cual estas tecnologías interactúan entre ellas para dar vida a un asistente de voz, se muestra en el siguiente diagrama:

Fuente: Blog
Cuando le dices a tu teléfono inteligente “muéstrame las indicaciones para llegar a mi casa” ASR se encarga de transformar el sonido de tus palabras en texto, para que NLU pueda extraer conceptos importantes como la acción que deseas lograr (ver indicaciones en un mapa) el destino (tu casa), el teléfono entonces busca en sus direcciones almacenadas la ubicación de tu casa, las pone en la pantalla y entonces genera una respuesta a través de NLG.
Ahondando un poco más en NLP, quisiera mencionar algunas de las formas en las cuáles puede ser utilizado:
- Traducción por máquina
- Análisis de sentimiento
- Auto-corrección
El estudio de NLP es bastante antiguo, algunas de las primeras patentes para máquinas de traducción fueron registradas a mediados de la década de los 30’s.
Un avance importante se presentó en 1970 con la introducción de las redes de transición aumentada (ATN por sus siglas en inglés Augmented Transition Network) las cuales evolucionaron el método de captura de datos del lenguaje, pasando del modelo de definición de reglas (Reglas de estructura de frases) a un conjunto de máquinas autómatas recursivos.

Reglas de estructura de frases VS Automáta recursivo
Otro avance importante ya en el campo de Deep learning, se realizó en 2018, donde el equipo de Google AI publicó un paper describiendo el modelo de representación BERT (por sus siglas en inglés Bidirectional Encoder Representations from Transformers). A diferencia de otros modelos de representación, BERT realiza el entrenamiento de las representaciones de manera bi-direccional, considerando el contexto izquierdo como derecho en todas las capas de la arquitectura de la red neuronal. Debido a esto, las representaciones BERT pueden ser ajustadas únicamente agregando una capa adicional de salida para crear modelos novedosos para un rango amplio conjunto de tareas, sin realizar modificaciones sustanciales a la arquitectura para cada una de esas tareas.
BERT logró resultados no vistos anteriormente en 11 tareas de procesamiento de lenguaje natural.

Fuente: Google AI – BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
En conclusión
¿Alguna vez has escuchado acerca de la prueba de Turing? Esta prueba establecida en los 50’s por Alan Turing, consiste en determinar si una máquina puede mostrar habilidades conversacionales tan similares a las humanas que sea imposible para un humano distinguir que se trata de una máquina.
Observa el siguiente video y deja tus comentarios acerca de ¿Qué tan cerca crees que estamos de llegar a ese punto?
Referencias
- (1) https://techcrunch.com/2019/02/01/alexa-skills-top-80000-after-a-big-alexa-powered-holiday-season/
- (2) https://techcrunch.com/2019/02/18/google-assistant-actions-up-2-5x-in-2018-to-reach-4253-in-the-u-s/
- (3) https://www.makeuseof.com/tag/the-master-list-of-every-siri-command-and-question/
- (4) https://www.washingtonpost.com/technology/2019/04/03/walmarts-latest-tool-ordering-groceries-google-assistant/?utm_term=.86d709c3f6c0
- (5) https://www.forbes.com.mx/bbva-bancomer-pondra-en-marcha-un-despido-de-casi-1500-empleados/
- https://towardsdatascience.com/natural-language-processing-nlp-for-machine-learning-d44498845d5b
- https://towardsdatascience.com/how-to-harness-the-power-of-speech-with-artificial-intelligence-ced8dc64721d
- https://arxiv.org/abs/1810.04805
- https://www.eluniversal.com.mx/cartera/en-2018-bancos-alcanzaron-maximo-historico-en-quejas
Comentarios