31 de marzo de 2025 - 16:09

Pantallas táctiles vs. comandos de voz: cuál va ganando la competencia y qué prefieren los usuarios

Los dispositivos que nos dan información con solo hablarles llevan años con nosotros, pero no lograron imponerse frente a los que tienen panel táctil. Por qué les cuesta convivir y cuál prevalecerá.

¿Qué clase de relación tenemos con nuestros dispositivos? Los miramos, los tocamos y les hablamos, pero esa interacción no siempre es constante, simétrica ni satisfactoria.

Desde la época en la que solo había botones físicos hasta la actualidad atravesada por la Inteligencia Artificial, ha habido muchos cambios en la manera de controlar los dispositivos que nos rodean, pero hay dos que destacan como las interfaces más influyentes en la última década: las pantallas táctiles y los comandos de voz. Ambos representan paradigmas distintos, pero complementarios. Ahora la pregunta clave es si uno ha logrado imponerse sobre el otro, o si, por el contrario, vamos a un futuro donde la convivencia será la norma.

Tocar o hablar, el gran dilema

A primera vista parece que las pantallas han ganado la batalla por la hegemonía. Cada vez se suman más dispositivos, desde el hogar hasta los espacios públicos, que optan por la interacción táctil.

Smartphones, tablets, relojes inteligentes, cajeros automáticos, tótems de autoservicio o electrodomésticos ya tienen pantallas táctiles. Incluso las computadoras, tradicionalmente “atadas” al teclado y el mouse, también las integraron.

Nada de esto es casualidad. Las pantallas táctiles permiten un control directo de los elementos que vemos con una interfaz intuitiva y visualmente atractiva.

Los smartphones nos acostumbraron a la acción por tacto y ofrecen ventajas prácticas difíciles de igualar: son simples de usar, requieren poco o ningún aprendizaje y su durabilidad y facilidad de limpieza las hacen adecuadas para entornos públicos. También juegan un papel importante en la accesibilidad visual, gracias a funciones como el zoom o la ampliación de texto.

Google Hub Home
El Google Hub Home funciona con comandos de voz y también con pantalla táctil.

El Google Hub Home funciona con comandos de voz y también con pantalla táctil.

Sin embargo, los comandos de voz ganaron espacio propio explotando las debilidades de la interacción táctil. Se sumaron como función extra en los celulares y dieron el salto a sus propios dispositivos, como el Amazon Echo, Google Assistant o el HomePod de Apple. Además ahora se reforzaron gracias a la IA y su capacidad de comprender el lenguaje natural.

Lo que ofrecen es simple y efectivo: hablar para solicitar una acción. Esto es especialmente útil en situaciones cotidianas donde el control por voz logra lo que el tacto no puede. Es el caso cuando manejamos, cocinamos o nos bañamos. También se volvieron asistentes útiles para personas con discapacidad visual o motora, ya que les facilitó la interacción con los dispositivos del hogar .

Pero todo eso parece no ser suficiente para sobrevivir en el entorno digital. Aún luchan con los acentos de las personas aunque sean hablantes de una misma lengua y al usuario le cuesta pedirles tareas complejas que exceden una simple orden. En este último punto es donde las pantallas vuelven a ser prioridad.

Una imagen vale más que mil palabras

Aunque este dicho es un cliché, existe por una razón: nos seducen más las imágenes que las explicaciones. Sin embargo, comparar pantallas táctiles y comandos de voz no es correcto ni justo.

El contexto es el que determina qué tan útil es uno u otro y ambos tienen fortalezas que ayudan en el uso cotidiano.

El problema es que quienes apostaban por la voz como modo de interacción primordial fueron abandonando su premisa ante la hegemonía de las pantallas.

Un ejemplo ilustrativo es el caso de Amazon y su asistente de voz Alexa.

Tres modelos de Amazon Echo
Tres modelos de Amazon Echo que muestra cómo pasaron de solo comandos de voz a sumar pantalla táctil.

Tres modelos de Amazon Echo que muestra cómo pasaron de solo comandos de voz a sumar pantalla táctil.

La compañía lanzó hace una década su primer Echo, un dispositivo que desafiaba a los celulares porque imponía la voz y descartaba el tacto para pedir música, información del tiempo o controlar las luces de casa.

Sin embargo, en cada nueva actualización el producto iba sumando una pequeña pantalla con información básica hasta llegar a la actualidad donde el Echo Show 10 es un parlante con una pantalla táctil que además se mueve para estar siempre cara a cara con el usuario.

Incluso la compañía lanzó este año Alexa Plus, la evolución de su asistente de voz que ahora integra IA para entender el lenguaje natural del usuario, pero cuya presentación se hizo sobre dispositivos con pantalla táctil

Aunque Amazon ofrece esta evolución como una integración que combina lo mejor de ambos sistemas, muchos sienten que fracasó su premisa de un mundo sin pantallas.

Incluso Apple está preparando un dispositivo similar, algo que podría servir para opacar un poco el escándalo de la postergación de la mejor función que iba a tener Apple Intelligence: una Siri con IA que realmente sirviera como asistente de voz.

La solución multimodal

Es una obviedad que la mejor solución es la convivencia entre pantallas táctiles y comandos de voz, pero no resulta tan fácil cuando la supremacía de lo visual parece no tener límites.

Aquí es donde la inteligencia artificial sale al rescate de la voz para combinar lo mejor de dos mundos. Los modelos de IA generativa pasaron de responder con textos a interactuar con charlas y ahora avanza la acción multimodal.

Así, el celular permite integrar cámaras, parlantes y micrófonos para que el usuario pueda dialogar con la IA que a su vez puede “ver” el entorno y responder con su propia voz.

Esta sinergia de funciones inteligentes permite a los usuarios elegir la forma más conveniente de interactuar según el momento y el contexto, y no se tratará de optar entre tacto o voz, sino de aprovechar la fuerza de ambos para crear una experiencia integral, cómoda y accesible.

LAS MAS LEIDAS