¿Qué es una interfaz de voz de usuario?

¿Qué es una interfaz de voz de usuario?

Hola y bienvenid@ a una nueva publicación en donde en está ocasión vamos a aterrizar un poco sobre el concepto de lo qué es una interfaz de voz de usuario (IVU por sus siglas en español), pero primero hagamos un ejercicio de memoria y recordemos sobre lo que es una interfaz. Si recurrimos a la vieja confiable de nuestra enciclopedia en línea (Wikipedia) tendremos una definición bastante razonable pero resumiendo aún más esta idea, básicamente una interfaz es un puente de comunicación.

Desde los inicios de la informática, los humanos nos hemos comunicado con nuestra tecnología por medio de la interfaz de línea de comandos (aún presente y útil para muchos ingenieros) y la interfaz gráfica (esos gráficos que vemos cuando abrimos programas y aplicaciones instaladas en nuestro sistema operativo). Como podemos observar, las interfaces nos permiten «comunicarnos» con computadoras, aplicaciones, servidores y hasta dispositivos de hardware mas pequeños.

Las interfaces de voz, por otro lado, nos permiten tener esta nueva forma de interacción con la tecnología haciendo mas ágil y rápida la ejecución de funciones y programas solicitadas por el usuario sin tener que esperar la apertura y ejecución de un programa ya que el tiempo de espera se reduce a la ejecución y no a la carga de los recursos. Ahora bien, debemos tener claro que el concepto de interfaz de voz tiene dos escenarios bien identificados por nosotros y que con los avances que se han logrado hasta el momento en inteligencia artificial, vamos a explicar de que trata cada uno de ellos.

Interfaz de Voz de Usuario tradicional

Las IVU’s tradicionales son instrucciones verbales o comandos de voz que una computadora puede entender para ejecutar algo muy concreto. Este tipo de interfaces basado en modelos y algoritmos de inteligencia artificial nos permite realizar acciones y eventos en sistemas de cómputos y servidores de forma muy especifica y concreta. Este tipo de «ordenes» es algo muy común entre los seres humanos, te doy algunos ejemplos sencillos: cuando nuestros padres nos dan una indicación (hija/hijo haz el aseo de tu cuarto), o cuando alguien nos pide un favor (me podrías pasar los platos por favor), cuando necesitas un dato o información (pásame el número del cliente), cuando es una indicación para hacer algo (sigue derecho y en dos cuadras dobla a la derecha) ó cuando necesitas saber información de un tema (¿de qué trato la ponencia?). Ejemplos hay muchos y que sin darte quizás cuenta los comandos de voz ya forman parte de nuestro día a a día desde hace mucho, mucho tiempo.

En concreto, las Instrucciones de Voz de Usuario tradicionales son instrucciones, peticiones, comandos, indicaciones de voz muy precisas y donde el contexto no importa del todo (aunque en ciertos escenarios si es muy necesario que la máquina entienda el contexto, pero de eso hablaré en otra publicación) sino que lo que importa es que conozca o haya visto la instrucción para que pueda hacer algo como consecuencia cuando escuche ese comando.

Como mencionaba en nuestra primera publicación, los pioneros de impulsar este tipo tecnología de IA fueron los asistentes Google Assistant, Alexa y Siri pero en cierto grado limitada ya que no puedes hacer mucho pues están limitados en cuanto a los datos de entrenamiento y prueba con que fueron hechos. Es aquí donde empresas como Interfazes entramos, pues nuestro objetivo es desarrollar y poner en servicio un framework de trabajo para que las personas puedan usar nuestra interfaz de voz y que las empresas puedan agregar y personalizar sus propios comandos de voz para dar mayor valor a sus productos y soluciones. Esto definitivamente aplica para las empresas que producen hardware y software, nuestra tecnología permite agregar estas nuevas interfaces de voz a equipos, dispositivos y aplicaciones de software para que los usuarios finales de estas empresas puedan ejecutar funcionalidades embebidas en sus productos y servicios y que combinado con servicios en la nube, como los servicios de Google, puedan elevar su oferta comercial hacia sus clientes.

Interfaz de Voz de Usuario profunda

Las Interfaces de Voz de Usuario (IVU) profundas incluyen tecnología de IA basada en redes neuronales, esto significa «conversar con la tecnología de un tema en concreto sin que ésta olvide lo dicho previamente». Gracias a la arquitectura de Transformers, lo cual vino a ser una revolución dentro de la revolución de inteligencia artificial, es que es posible que las computadores «recuerden lo que has estado conversando» y eso es muy significativo porque puedes regresar a ideas o temas tocados con anterioridad, cosas que sucede en una conversación humana, e ir ampliando mas la plática y con ello profundizar en las ideas.

Gracias a los grandes modelos del lenguaje sumados a los modelos de chatbots, como Gemini de Google o ChatGPT de OpenAI, son una combinación poderosa para poder conversar de temas específicos. Precisamente las interfaces de voz entenderán, al entender el contexto, la pauta de la conversación obteniendo la información que necesita un usuario. No debes olvidar que este tipo de tecnología requiere de altos costos informáticos pues se procesa directamente en procesadores de tarjetas de video (GPU’s) por lo que es muy posible que se requiera que te suscribas a estos servicios para poder hacer uso de ellos. En este sentido, tu misión, si decides aceptarla, es expandir la palabra entre tus contactos, colegas, amigos y familiares para que sepan acerca de nuestro proyecto y juntos construyamos el conocimiento y la demanda por saber más acerca de lo que estamos construyendo en beneficio tuyo 😉

Conclusiones

Creo que en esta publicación he tocado diversos conceptos como los Grandes Modelos del Lenguaje (LLM’s por sus siglas en inglés), modelos de Chatbot, IVU’s que son de nuestro interés darte como un breve contexto pues de estas ideas es como estamos enriqueciendo y creando nuestra Interfaz de Voz. Espero poder haber sembrado en ti la semilla de la curiosidad sobre lo que estamos creando en beneficio de las personas y empresas, queremos hacer aún mas amigable la forma en como trabajamos e interactuamos con la tecnología, ese es nuestro objetivo prioritario. Si deseas comentar, te invito que lo hagas en mi red social de Linkedin, te dejo aquí el enlace, para que puedas dejarme tus comentarios. Nos leemos en una próxima entrega.

CC

Comentarios

Aún no hay comentarios. ¿Por qué no comienzas el debate?

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *