El futuro de las aplicaciones es la voz

Nos guste o no, no hay dorso detrás: las aplicaciones y los sistemas operativos gravitarán constantemente en torno a las interacciones de voz.

No obligatorio, pero sí forzoso.

Pero aquí está la cuestión: nadie de los puntos que voy a exponer significa que usted será forzado balbucir con sus dispositivos en contra de su voluntad, ni que la humanidad esté ladrando sin sentido en torno a un futuro en el que cada espacio compartido públicamente inevitablemente se llenará de una disonancia de nerds excesivamente dependientes y amantes de la IA.

La GUI no desaparecerá, al igual que la calculadora no desapareció a posteriori del emanación de Lotus 1-2-3. De hecho, incluso hoy en día todavía puedes comprar un tablero si lo deseas. Algunos son en realidad conveniente caros..

Pero en este punto, es completamente forzoso que tanto los desarrolladores de aplicaciones como los sistemas operativos gravitarán cada vez más en torno a las interacciones basadas en voz.

Y hay buenas razones para ello, la más obvia es la accesibilidad.

Con esto no me refiero sólo a los usuarios que no pueden interactuar físicamente con sus dispositivos, aunque eso por sí solo ya es más que inexistente. Asimismo me refiero a usuarios que no son tan conocedores de la tecnología como usted podría ser, pero que tienen las mismas evacuación, ya que intentan navegar por teléfonos, computadoras y plataformas que parecen funcionar sin esfuerzo para todos los demás.

Y si su reacción instintiva es percibir a estos usuarios como vagos, o poco en esa dirección común, lamento decírselo, pero está perdiendo el sentido de toda la promesa de la informática moderna.

Se supone que los avances tecnológicos reducirán la barrera de entrada y ayudarán a las personas a impresionar a donde quieran, independientemente de lo familiarizados que estén con cualquier cosa, desde la Terminal hasta Safari.

De hecho, la maduro parte de la existencia de Apple se basó en esa misma premisa, incluso si sus líderes en ocasiones parecen olvidarla.

hola computadora

Dicho todo esto, aquí hay otra gran razón por la que un enfoque de voz primero es forzoso: la tecnología subyacente existente necesaria para que eso funcione es finalmente poniéndose bueno.

Sí, todos los LLM todavía cometen errores estúpidos, y es probable que siempre los hagan, siempre que se basen en enfoques autorregresivos actuales basados en Transformer.

Pero las empresas, los laboratorios de inteligencia sintético de vanguardia e incluso los desarrolladores independientes están aprendiendo a solucionar esas limitaciones o migrando a arquitecturas completamente diferentesalgunos de los cuales son muy prometedores.

Durante el año pasado, ha habido avances significativos en las interfaces basadas en voz, incluidas herramientas como Wispr y Speechify, que han experimentado una tasa de apadrinamiento cada vez más pronunciada.

Según el fundador y director ejecutor de Wispr Flow, Tanay Kothari, sus usuarios eventualmente llegan a un punto en el que la voz representa aproximadamente el 75% de todas las entradas del producto. Y entre los usuarios maduros, el uso del teclado cae a menos del 5%.

Y me comeré el sombrero si no están trabajando en capacidades de agente adecuadas para flanquear sus herramientas de dictado. De hecho, Speechify ya se está moviendo claramente en esa dirección.

Adicionalmente, no olvidemos el fresco tsunami provocado por OpenClaw, verrugas y todolo que desbarató por completo lo que cualquiera esperaba que los agentes autónomos pudieran hacer en el corto plazo. De hecho, muchos usuarios confían en plataformas como ElevenLabs para balbucir en voz adhesión con sus agentes, algunos de los cuales vieron la API de ElevenLabs implementada de guisa proactiva por garfio abierta sí mismo.

Cualquiera que sepa de qué está hablando le dirá lo extraordinario que es esto. de nuevoverrugas y todo.

La transformación en ese frente se está acelerando

Y así de rápido se están moviendo las cosas: comencé a escribir este artículo hace un tiempo, antiguamente de que OpenClaw se convirtiera en lo que es hoy.

Originalmente había escrito:

“(…) no pasará mucho tiempo antiguamente de que las aplicaciones y los sistemas operativos se apoyen en marcos autónomos, donde los usuarios simplemente dicen lo que quieren y la IA maneja el significado, traza los pasos y ejecuta esa obra a través de aplicaciones listas para agentes en nombre del beneficiario”.

Como resulta, en ingenuidad no lo fue.

Originalmente, incluso tenía la intención de cerrar el texto mencionando cosas como MCP de Anthropicincluso de Apple Intenciones de la aplicaciónpara ilustrar cómo estaban encajando las piezas que permitirían interfaces listas para voz. Incluso iba a sugerir que podríamos ver noticiero en ese frente el próximo mes de junio, durante la WWDC.

Ahora, aunque todavía creo que podría Aunque veremos más funciones, API y posibilidades orientadas a la voz en junio, incluso la rudimentos de que dependerán del desarrollador está empezando a parecer miope o anticuada.

Puede que no recuerde aceptablemente los detalles, pero creo que es John Gruber quien deje de cómo en algún extensión, posiblemente en la Universidad de Drexel, finalmente pavimentaron el camino que la multitud talló en la hierba porque era más corto que la ruta que habían diseñado los arquitectos.

Sinceramente creo que, para muchos usuarios, la voz es el camino más corto.

Desde expresar una solicitud en un iPhone o Mac y obtener a cambio un golpe directo reformista, hasta modificar fotos, apañarse y editar documentos, o incluso solicitar flujos de trabajo de varios pasos entre aplicaciones, es cada vez más obvio que, a medida que la tecnología finalmente se pone al día, la interfaz que la mayoría de los usuarios encontrarán más acomodaticio de navegar no es ninguna interfaz. O mejor dicho, el que la humanidad ha estado refinando desde el primer refunfuño.

Dicho todo esto, todavía odio que la multitud me envíe mensajes de voz.