Si hay algo que aprendí durante los 15 años que trabajé en la Búsqueda de Google, es que la curiosidad de las personas es infinita. Vemos miles de millones de búsquedas todos los días, y el 15 por ciento de esas consultas son las que no hemos visto antes, por lo que hemos creado formas de devolver resultados para consultas que no podemos anticipar.
Cuando personas como usted o yo venimos a Buscar, no siempre estamos seguros de cuál es la mejor manera de formular una consulta. Es posible que no sepamos las palabras correctas para usar, o cómo deletrear algo, porque muchas veces, venimos a Buscar buscando aprender, no necesariamente tenemos el conocimiento para comenzar.
En esencia, la búsqueda se trata de comprender el lenguaje. Es nuestro trabajo descubrir qué está buscando y mostrar información útil de la web, sin importar cómo deletree o combine las palabras en su consulta. Si bien hemos seguido mejorando nuestras capacidades de comprensión del idioma a lo largo de los años, a veces todavía no lo hacemos bien, especialmente con consultas complejas o conversacionales. De hecho, esa es una de las razones por las cuales las personas a menudo usan la «palabra clave ese», escribiendo cadenas de palabras que creen que entenderemos, pero en realidad no es cómo harían una pregunta naturalmente.
Con los últimos avances de nuestro equipo de investigación en la ciencia de la comprensión del lenguaje, posible gracias al aprendizaje automático, estamos haciendo una mejora significativa en la forma en que entendemos las consultas, lo que representa el mayor avance en los últimos cinco años, y uno de los mayores avances en la historia de la Búsqueda.
Aplicación de modelos BERT a la Búsqueda
El año pasado, presentamos y de código abierto una técnica basada en redes neuronales para el entrenamiento previo de procesamiento de lenguaje natural (PNL) llamada Representaciones de codificador bidireccional de transformadores, o como lo llamamos – BERT, para abreviar. Esta tecnología permite a cualquiera entrenar su propio sistema de respuesta a preguntas de última generación.
Este avance fue el resultado de la investigación de Google sobre transformadores: modelos que procesan palabras en relación con todas las otras palabras en una oración, en lugar de una por una en orden. Por lo tanto, los modelos BERT pueden considerar el contexto completo de una palabra al observar las palabras que vienen antes y después, particularmente útil para comprender la intención detrás de las consultas de búsqueda.
Pero no solo los avances en software pueden hacer esto posible: también necesitábamos nuevo hardware. Algunos de los modelos que podemos construir con BERT son tan complejos que superan los límites de lo que podemos hacer con el hardware tradicional, por lo que por primera vez estamos utilizando los últimos TPU en la nube para mostrar resultados de búsqueda y obtener información más relevante rápidamente.
Romper sus consultas
Esos son muchos detalles técnicos, pero ¿qué significa todo para usted? Bueno, al aplicar los modelos BERT a los fragmentos destacados y clasificados en la Búsqueda, podemos hacer un trabajo mucho mejor ayudándole a encontrar información útil. De hecho, cuando se trata de clasificar los resultados, BERT ayudará a la Búsqueda a entender mejor una de cada 10 búsquedas en los EE. UU. En inglés, y con el tiempo llevaremos esto a más idiomas y localidades.
Particularmente para consultas más largas y más conversacionales, o búsquedas en las que las preposiciones como «para» y «a» son muy importantes para el significado, la búsqueda podrá comprender el contexto de las palabras en su consulta. Puede buscar de una manera que le parezca natural.
Para lanzar estas mejoras, hicimos muchas pruebas para asegurarnos de que los cambios realmente sean más útiles. Estos son algunos de los ejemplos que mostraron nuestro proceso de evaluación que demuestran la capacidad de BERT para comprender la intención detrás de su búsqueda.
Aquí hay una búsqueda de «El viajero brasileño de 2019 a EE. UU. Necesita una visa». La palabra «a» y su relación con las otras palabras en la consulta son particularmente importantes para comprender el significado. Se trata de un brasileño que viaja a los Estados Unidos, y no al revés. Anteriormente, nuestros algoritmos no entendían la importancia de esta conexión, y devolvimos resultados sobre ciudadanos estadounidenses que viajaban a Brasil. Con BERT, la Búsqueda puede comprender este matiz y saber que la palabra muy común «a» realmente importa mucho aquí, y podemos proporcionar un resultado mucho más relevante para esta consulta.
Aquí hay otros ejemplos en los que BERT nos ha ayudado a comprender los sutiles matices del lenguaje que las computadoras no comprenden del modo en que los humanos lo hacen.
Con el modelo BERT, podemos entender mejor que «para alguien» es una parte importante de esta consulta, mientras que anteriormente no vimos el significado, con resultados generales sobre cómo surtir recetas.
Mejorando la búsqueda en más idiomas
También estamos aplicando BERT para mejorar la búsqueda de personas en todo el mundo. Una característica poderosa de estos sistemas es que pueden tomar aprendizajes de un idioma y aplicarlos a otros. Por lo tanto, podemos tomar modelos que aprenden de las mejoras en inglés (un idioma donde existe la gran mayoría del contenido web) y aplicarlos a otros idiomas. Esto nos ayuda a obtener mejores resultados en los muchos idiomas en los que se ofrece la búsqueda.
Para los fragmentos destacados, estamos utilizando un modelo BERT para mejorar los fragmentos destacados en las dos docenas de países donde esta función está disponible, y vemos mejoras significativas en idiomas como coreano, hindi y portugués.
La búsqueda no es un problema resuelto
No importa lo que esté buscando o el idioma que hable, esperamos que pueda dejar de lado algunas de sus palabras clave y buscar de una manera que le resulte natural. Pero de vez en cuando aún se topará con Google. Incluso con BERT, no siempre lo hacemos bien. Si busca «qué estado está al sur de Nebraska», la mejor conjetura de BERT es una comunidad llamada «Nebraska del Sur». (Si tiene la sensación de que no está en Kansas, tiene razón).
La comprensión del idioma sigue siendo un desafío constante y nos mantiene motivados para seguir mejorando la búsqueda. Siempre estamos mejorando y trabajando para encontrar el significado y la información más útil para cada consulta que nos envíe.