Uno de los problemas más importantes a la hora de rastrar la información de la
WWW es que no las páginas web están en cientos de idiomas diferentes, y que
además los webmasters no suelen seguir los estándares a la hora de crear
documentos
web.
Otro problema es entender las consultas de los usuarios, los cuales suelen
utilizar menos de tres palabras por cada búsqueda, lo que complica la tarea.
Hace unos meses se publicaron estos datos al respecto: solamente el 26% de
los usuarios utilizan cuatro o más términos por búsqueda. Además, hay que
recordar que el propio Manber reconocía hace tiempo que una de cuatro
búsquedas en Google es inédita, lo que complica aún más la labor de devolver
resultados
con
información
útil.
El algoritmo de PageRank se sigue utilizando a día de hoy, pero se ha diluido
dentro de un sistema mucho más grande de evaluación de la relevancia de los
documentos web. Ahora, además de este parámetro, se tienen en cuenta otros
como los modelos del lenguaje (Google procesa ahora las frases que se
rastrean, los sinónimos o las palabras mal escritas), o la antigüedad o la
frescura del documento web (algunas búsquedas tienen su mejor información
en las páginas que se han creado en las últimas horas).
Continuamente se están realizando modificaciones en los algoritmos del
buscador, y en concreto en 2007 se lanzaron 450 nuevas mejoras (9 por
semana
de
media).
Se ha implementado recientemente la herramienta de revisión ortográfica (el
famoso "Quizás quiso decir") en diferentes idiomas, como el catalán, el serbio o
el
ucraniano.
Google ha creado una red de personas en varios países del mundo, que se
encargan de "ofrecer feedback a Google", en referencia al laboratorio 'Rater
Hub', en el que se contrata a usuarios de Internet (también de España) para que
entrenen a los algoritmos de búsqueda (ver post sobre documento de uso del
laboratorio).
Google cuenta también con un importante grupo de voluntarios dentro de la
compañía que les ayuda a mejorar las búsquedas en diferentes idiomas.
Muy pocos usuarios se leen las páginas de ayuda del buscador web, y son
mayoría los que desconocen todas las posibilidades que ofrece. Por ello, nos
encontramos cada vez más con información proveniente de otras herramientas
de Google dentro de los resultados del buscador web. Es lo que se conoce como
Página 1

'Google Universal Search', presentado por el propio Manber hace justo un año.
Hay diferentes grupos de trabajo dentro del Departamento de Calidad del
buscador web, y dos de ellos están relacionados con los webmasters. Uno de
ellos, para detectar cualquier intento de engaño por parte de algunos de ellos
(el de 'Web Spam'), y otro para abrir un canal de comunicación con Google (el
de 'Google Webmasters Tools').
