Escucho voces dentro de mi casa

En más más de una década los asistentes virtuales con comandos de voz llegaron donde las pantallas táctiles no podían, pero no lograron superarlas.

La diferencia entre lo que planificó un fabricante y lo que hace un usuario es, muchas veces, abismal. Ese es el caso de los asistentes por voz, que nacieron para como alternativa a las pantallas táctiles.

Lo sé bien porque en mi casa utilizo dos servicios con comandos de voz y cada vez más parecen estar alejados de lo que un día vi en las publicidades que me sedujeron para comprarlos.

En honor a la verdad diré que los adquirí en el exterior, donde el idioma promocional no era el español aunque lo reconocen perfectamente. El problema es que hablo como argentino, un acento que excede la capacidad de casi cualquier algoritmo y aunque hablemos la misma lengua, no siempre nos entendemos y hay días en que descubro que les hablo en un español neutro que parece salido de Cartoon Network.

La que mejor responde a mis pedidos vocales es Google Assitant en el Google Home Hub, un dispositivo con pantalla que puedo usar con mi voz o a través de su pantalla táctil. Suele entender la mayoría de mis requerimientos que casi siempre son sobre prender o apagar luces, saber cómo estará el tiempo o qué canción estoy escuchando.

Google Hub Home
El Google Hub Home funciona con comandos de voz y también con pantalla táctil.

El Google Hub Home funciona con comandos de voz y también con pantalla táctil.

La otra opción hogareña que tengo es el HomePod Mini de Apple, que puedo manejar con la voz a través de pedidos a Siri. Aquí mis requerimientos son más monosilábicos y breves porque la mayoría de veces, aunque entiende lo que digo, no lo responde con su voz y me manda a abrir mi iPhone para ver las respuestas, una solución muy poco amigable.

Pero el principal inconveniente es cuando creen que les he dicho algo y comienzan a hablar a la nada, o cuando les pido hacer una tarde y no hay respuesta ni señal de vida.

Son errores ocasionales, pero hablar con dispositivos es algo con lo que no termino de sentirme cómodo. Es una cuestión personal y quizá a otros les resulte más sencillo, pero creo que vale la pena ver la evolución que tendrán.

Los grandes modelos de lenguaje de la IA -conocidos como LLM- tienen como objetivo entender a los usuarios en su forma de hablar, más allá de la lengua. Curiosamente es un área en la que los humanos aún lidiamos para comprendernos entre nosotros, pero queremos que un algoritmo que lo resuelva ya.

Las dificultades actuales para entendernos con los dispositivos también pone en tela de juicio el mito de que escuchan nuestras conversaciones. ¿Pueden realmente oir nuestras charlas para vendernos publicidad si más de una vez no entienden una simple como encender las luces de casa?

Más allá de los inconvenientes actuales, hay avances significativos y la IA ya usa nuestro acento para interactuar y cada día evoluciona en su entendimiento, así que pronto veremos dispositivos multimodales capaces de charlar fluidamente en tono y vocabulario coloquial, algo que excita y asusta por igual con solo pensarlo.

LAS MAS LEIDAS