Asistentes virtuales y entrenamiento de reconocimiento de voz, la evolución

 

Aunque resulte un tema muy actual y futurista, la historia de la tecnología del reconocimiento de voz se remonta la década del 50. Pero no fue hasta 1987 cuando la muñeca Julie fue lanzada al mercado; los niños la podían “entrenar” para responder en sus charlas de juegos. El defecto radicaba en que había que hacer una pausa entre cada palabra hablada, limitando el impulso que necesitaba la tecnología para crecer.

En menos de 40 años, la tecnología avanzó en las órdenes de voz y se inventó la asistencia virtual que generó una vasta cantidad de datos hablados. Gracias a este entrenamiento en el reconocimiento de la voz fue posible llegar a su impulso fundamental que hoy permite que esta tecnología sea cada vez más sofisticada.

No obstante, el mayor obstáculo para que haya más avances es el desafío continuo de poder entender el habla humana con la precisión suficiente. Pensemos que el mundo está integrado por 7600 millones de personas, unidas por culturas e idiomas que cada ser humano hace único con sus modismos, dialectos y jergas. Por eso, pese a la rapidez con que los ordenadores han sido capaces de aprender con modelos de aprendizaje automáticos más sólidos, la naturaleza única y diversa del habla de los individuos dificulta la precisión del sistema. Entra en juego el procesamiento del lenguaje natural (PLN) que es nada menos que el campo que trabaja en descifrar el código para la comprensión universal del habla humana.

Sumado a esto, el contexto en el que se dicen ciertas palabras también cambia sus significados. Entonces es vital también trabajar en comprender ese número infinito de situaciones.

Siri, el pionero

Cuando Apple presenta Siri en 2011 los consumidores pensamos que Volver al Futuro estaba a la vuelta de la esquina. Nos emocionamos con esta nueva función e incluso jugamos con las respuestas graciosas que ciertas preguntas clave generaban. A pesar de eso, en realidad Siri solo podía realizar sencillas funciones como iniciar una llamada o llevar a cabo una búsqueda online simple. El encanto duró poco ya que la habilidad para descifrar órdenes habladas en un entorno ruidoso era muy limitada y Siri no “comprendía”, perdiendo todo su encanto. Como casi todo en Internet, las fallas de Siri y sus compañeros virtuales son material de múltiples memes. 

A pesar de estos contratiempos en la experiencia del usuario, otros fabricantes de teléfonos móviles siguieron con rapidez el concepto y añadieron a sus dispositivos motores de búsqueda con reconocimiento de voz, debido al prometedor potencial que ofrecía esta tecnología. Los avances más recientes en la integración con otras aplicaciones han incrementado ahora la complejidad de las órdenes que pueden llevarse a cabo.

¿Cómo acceder entonces a datos relevantes?

Después del lanzamiento de Siri, otros grandes de la tecnología empezaron a dar a conocer sus tecnologías asistentes. Cada compañía se centró en los puntos fuertes únicos que sus productos ofrecían a los usuarios a los que iban destinados. Amazon se incorporó a la carrera al aportar al mercado sus dispositivos inteligentes para el hogar, Echo y Alexa; mientras que el superordenador de IBM, Watson, se dirigió a las empresas y Cortana, de Microsoft, se integró en Windows 10.

En términos de precisión, Google tiene la mayor ventaja por los datos de su motor de búsqueda que sirve como base para el entrenamiento en el reconocimiento de voz. Amazon se ha puesto al día rápidamente con una participación mayoritaria en el mercado de los dispositivos inteligentes para el hogar.

Los datos se equiparan a la experiencia de la vida real, que pueden procesar las herramientas automáticas de aprendizaje y usarlas para crear un patrón más eficiente del reconocimiento de voz.

Asistentes virtuales en el lugar de trabajo

El mercado global del software de reconocimiento del habla crecerá a un ritmo constante del 12% en los próximos años, sostiene BBC Research. El uso de la orden por voz en la búsqueda en línea aumentará también, tendencia que viene creciendo hace años. En el hogar, la asistencia virtual se dirige a los electrodomésticos, que se integran con el internet de las cosas.

En el puesto de trabajo, la asistencia virtual se ha convertido en algo de creciente interés para las empresas, debido a su capacidad de optimizar el flujo de trabajo. Pero para que esto sea realmente útil y permita a las empresas optimizar flujos de trabajo, procesos y por consiguiente, ganancias, es necesario contar con el acceso a grandes cantidades de datos y deben ser de buena calidad.

Con servicios como el de Atexto, nos encargamos de facilitar grandes cantidades de datos procesados para enseñar a los asistentes a escuchar y comprender más y mejor; los programas de asistencia basados en la voz pueden ayudar a solventar los problemas del lugar de trabajo con más rapidez y mayor eficiencia, creando una oficina más productiva.

¿Qué podemos esperar para el futuro cercano?

Gracias a los cambios en el comportamiento del usuario que utiliza más las interacciones dirigidas por voz, se espera que mejore la precisión del reconocimiento del habla a un ritmo incluso más rápido de lo que lo ha hecho hasta ahora. Esto significa que los asistentes virtuales recogerán los beneficios de esas mejoras para ofrecer más servicios.

En Atexto contamos con la participación de la comunidad de transcriptores más grande del mundo, con cerca de 250.000 personas registradas, de múltiples culturas e idiomas. Esto garantiza una integración entre tecnología y calidad humana que entendemos será la clave para lograr la comprensión y precisión total por parte de los motores de reconocimiento de voz que sirven como base para la tecnología de asistencia virtual.

¿Quieres saber más sobre Atexto y los servicios que ofrecemos para mejorar su sistema de aprendizaje automático? Envíanos un mail a info@atexto.com

Prueba el servicio 100% por especialistas, online y rápido ¿Tienes preguntas? Habla con un experto

 

Comentarios
0