Para despertarlo basta con decir “Ok, Google”. Está disponible en celulares, televisores y parlantes inteligentes. Manuel Bronstein, vicepresidente de Gestión de Producto de Google Assistant, habló con Infobae para analizar cómo aprende el sistema para ofrecer un servicio cada vez más personalizado y «humano».
El asistente virtual de Google, también conocido como Google Assistant, habita en diferentes dispositivos: desde teléfonos hasta televisores. Se lo convoca a través de la frase «Ok, Google» para pedirle que busque información en la web, ofrezca indicaciones en el mapa o agende eventos en el calendario. Y también mucho más.
El asistente aprende con el uso y se va haciendo cada vez más inteligente. Desde que se presentó en 2016, como sucesor de Google Now, fue sumando cada vez más funciones. Y con el tiempo se irá sofisticando aún más.
Se entrevistó a Manuel Bronstein, vicepresidente de Gestión de Producto de Google Assistant, en las oficinas de la compañía en Mountain View, para entender cómo funciona este cerebro virtual y de qué modo evolucionará este servicio teniendo en cuenta que en mayo se presentó Google Dúplex, un sistema de inteligencia artificial que tiene una voz «muy humana» y puede tener conversaciones telefónicas.
¿Cómo es trabajar en el área de Google Assistant?
Parte de la emoción de estar en esta área es que es siempre hablamos de hacer la información accesible y útil, acá de lo que hablamos es que el asistente te puede ayudar para hacer cosas de manera más productiva, de ejecutar tus acciones en el día a día. Y si lo hacemos bien le va a dar a la gente cada vez más tiempo para hacer otras cosas. Es un área súper interesante. El crecimiento ha sido rápido y exponencial. Empezamos con el asistente en teléfonos, parlantes y ahora estamos lanzando pantallas inteligentes donde puedes interactuar con el asistente no solo a través de la voz, sino con una interfaz visual también.
¿Qué pasa con Dúplex? Cómo se va a integrar?
Es muy reciente, estamos experimentando. Encontramos un área muy específica que funciona sólo con reservas a restaurantes o salones. Vamos a hacer que la conversación sea más natural pero con todas las precauciones del caso, como hacerle saber al restaurante que se está hablando con un asistente virtual.
¿Y cómo se va a hacer eso?
En el momento que se pasa la llamada hay un aviso que dice «ésta es una llamada de un asistente » y le da la oportunidad a la persona del otro lado del teléfono de tomar la llamada o decir «no, yo no quiero hablar con un asistente virtual». Es todavía muy reciente. Hay que considerar las regulaciones de los países. Va a llevar tiempo implementarlo pero queremos hacerlo. Nos estamos tomando el tiempo para que la tecnología, y sobre todo los partners, que serían los salones o restaurantes estén de acuerdo, dispuestos a aceptar una tecnología como la de Dúplex.
¿Pero ya tienen alguna fecha en mente para la implementación?
No te la puedo confirmar, porque es una tecnología que está en la fase experimental en este momento.
¿Todas las preguntas o consultas que se hacen al asistente quedan guardadas en la nube?
Google ha pensado mucho las políticas, regulaciones , de cómo mantenemos data, cómo garantizamos privacidad y es muy importante darle control al usuario. Si tu vas a «Mi actividad», en el menú de configuración, tú puedes ver toda tu actividad que el Assistant ha registrado y puedes incluso decidir borrarla o mantenerla ahí. Es una parte de darle control y solo tú tienes acceso a esa información. El assistant no te está oyendo todo el día y no todas las conversaciones quedan grabadas. Cuando usas el hot word o palabra clave de «Hey, Google» u «Ok, google» en ese momento esa información se procesa y de ahí en adelante tú puedes elegir como usuario si quieres que esa conversación se mantenga o no se mantenga ahí.
¿Se imagina a la compañía construyendo un robot con el Assistant integrado?
-Lo interesante es que una de las cosas que hicimos fue hace un Assistant SDK (kit para desarrolladores) que permite a otras personas que hacen dispositivos integrar el asistente. Es posible que esa innovación venga del ecosistema y no necesariamente de parte nuestra. Lo que siempre ha hecho Google, con Android, es decir «aquí están las herramientas, a ver cómo la comunidad de desarrolladores puede crear algo interesante». Me imagino que en un futuro puede haber algo así, pero por ahora lo más interesante es que hay ciertos dispositivos que están en tu casa, que están al alcance de tu mano y la pregunta es cómo podemos hacer esos dispositivos más útiles y efectivos a través del asistente. Y el teléfono es algo que cargamos con nosotros todo el día. En las casas hay televisores que, con Android TV, pueden tener el Assistant. Hay dispositivos de audio. Hoy en día estamos hablamos de estas pantalla que pueden llegar a ser muy interesantes para los hogares.
¿Cómo funciona el cerebro virtual del Assistant?
Cuando una persona está teniendo una conversación y está tratando de hacer algo, tú puedes decir muchas palabras pero dentro de toda esa oración hay un «intent» o intención y lo interesante que hace toda la tecnología es, por un lado, reconocer las palabras, la voz, convertirla de alguna manera a texto, y cuando tienes esa oración o esa serie de palabras en texto, se pone cierto entendimiento en ese texto. Y más que nada lo que quieres entender es cuál es la intención, qué es lo que yo quieres lograr. Una vez que tú sabes qué es lo que yo quiero lograr puedes decir con qué aplicaciones o con qué tecnología se puede corresponder o satisfacer esa intención que tiene el usuario. Cuando, por ejemplo, yo le digo al Assistant: «por favor, toca tal canción».
La intención es tocar una canción. El Assistant puede reconocer que la forma de oír música es a través de Google Play Store, Google Play Music, YouTube o Spotify y en ese momento decir: «Ok, registré que Manuel quiere oír esa canción, ahora le voy a dar, en función de sus hábitos y del servicio de música que él utiliza, voy a conectar esta oración a «vamos a tocar música en YouTube»». Y lo más interesante es que si te pones a pensar cuando haces una oración de este tipo, donde quieres o responder una pregunta o satisfacer una necesidad, hay muchas formas de decirlo y proyectarlo en 30 idiomas. Hay además unas 20 formas de decir, en cada idioma, «quiero comprar una entrada de cine» o diferente formas de estructurar la oración. Y lo interesante del sistema es que, independientemente de cómo lo digas, podemos destilar la intención y buscar una acción correspondiente a esa intención y así es como funciona.
¿Se lee la intención?
Sí, trata de tomar una oración y extraer cuál es la intención. Puede haber 25 palabras pero al final hay una, dos o tres palabras clave que te enseñan a saber, o te permiten saber, si al final del día lo que quieres hacer es oír una canción o jugar un juego o comprar algo en una tienda. Y es interesante porque hay varias formas de confundirlo porque puedes poner múltiples intentos en una oración y lo que intentamos hacer con machine learning es ver cómo se aprende para ser cada vez mejor en destilar esa intención. Pero la otra parte súper importante es que cuando yo destilo la intención. Lo que hace el Assistant, que es muy útil, es que yo te puedo dar alguna forma de satisfacer esa intención. Y ahí es donde tenemos un ecosistema de aplicaciones, tanto las que tiene Google, como los desarrolladores externos que pueden ayudarnos a satisfacer esa necesidad, como comprar un café en Starbucks.
¿Qué problema le gustaría que ayude a resolver la inteligencia artificial y que aun no lo hace?
Yo tengo aquí, un asistente en mi trabajo y me pongo a pensar todas las cosas que hace esta persona para ayudarme a manejar mi día, y es decir cómo hacer para que una persona que no tiene un asistente pueda para poder satisfacer todas sus necesidades. Creo que cuando tienes a este asistente que está aprendiendo de ti, empieza a hacerte la vida más fácil. Un ejemplo es que si yo quiero comprar entradas de cine, yo sé la película que quiero ver, busco el lugar en el que la quiero ver, el horario y después tengo que decir cuántos asientos quiero comprar y, muchas veces, cuando voy al paso número tres no hay tres asientos juntos. O sólo hay asientos en primera fila. Y eso hace que tenga que volver a buscar otro cine, otro horario, y termino haciendo un recorrido tres veces para hacer la operación. A un asistente inteligente yo le podría decir «quiero ver tal película» y en el futuro podría saber : «Manuel va al cine con dos personas, a tal horario y no le gusta sentarse en primera fila». Y me daría opciones en función de ese perfil.
¿Los usuarios están más abiertos a dar sus datos por los beneficios que reciben con la personalización de la experiencia? ¿Es así realmente?
Creo que es que uno empieza a sentir más confianza en la medida que la aplicación se va haciendo más útil. Si el primer día llega un asistente y me dice «Manuel, necesito la dirección de tu casa, tu tarjeta de crédito, dirección y cuántos hijos tienes», probablemente me eche para atrás y no quiera darle toda esa información. Pero, si al día siguiente, necesito una compra y le doy mi tarjeta de crédito y lo hace bien y esa tarjeta queda almacenada de manera segura para otras compras, contextualmente se va ganando más confianza. Por nuestro lado, lo importante es la transparencia, la privacidad y darle control al usuario sobre cómo se está usando esa información. La puedes borrar o quitar. Y por otro lado demostramos que se le puede dar utilidad a esa información. La visión del cine puede tomar uno o dos años pero es un ejemplo de cómo uno se acostumbra a hacer las cosas y que ahora las cosas son más fáciles que hace 3 o 5 años, pero a su vez hay forma de hacerlas aún más efectivas.
Fuente: Infobae
- Encuesta septiembre 2021: ¿Cómo crees que afectan las tecnologías de la información en la educación? – 6 septiembre, 2021
- ¡Ya llega Programmer’s Week 2021! – 3 septiembre, 2021
- Encuesta agosto 2021: ¿En qué sector IT te desarrollas o te gustaría desarrollarte? – 6 agosto, 2021
Deja una respuesta