APLICACIONES de algebra.docx - Uno de los problemas...

This preview shows page 1 - 3 out of 6 pages.

Uno de los problemas más importantes a la hora de rastrar la información de la WWW es que no las páginas web están en cientos de idiomas diferentes, y que además los webmasters no suelen seguir los estándares a la hora de crear documentos web. Otro problema es entender las consultas de los usuarios, los cuales suelen utilizar menos de tres palabras por cada búsqueda, lo que complica la tarea. Hace unos meses se publicaron estos datos al respecto: solamente el 26% de los usuarios utilizan cuatro o más términos por búsqueda. Además, hay que recordar que el propio Manber reconocía hace tiempo que una de cuatro búsquedas en Google es inédita, lo que complica aún más la labor de devolver resultados con información útil. El algoritmo de PageRank se sigue utilizando a día de hoy, pero se ha diluido dentro de un sistema mucho más grande de evaluación de la relevancia de los documentos web. Ahora, además de este parámetro, se tienen en cuenta otros como los modelos del lenguaje (Google procesa ahora las frases que se rastrean, los sinónimos o las palabras mal escritas), o la antigüedad o la frescura del documento web (algunas búsquedas tienen su mejor información en las páginas que se han creado en las últimas horas). Continuamente se están realizando modificaciones en los algoritmos del buscador, y en concreto en 2007 se lanzaron 450 nuevas mejoras (9 por semana de media). Se ha implementado recientemente la herramienta de revisión ortográfica (el famoso "Quizás quiso decir") en diferentes idiomas, como el catalán, el serbio o el ucraniano. Google ha creado una red de personas en varios países del mundo, que se encargan de "ofrecer feedback a Google", en referencia al laboratorio 'Rater Hub', en el que se contrata a usuarios de Internet (también de España) para que entrenen a los algoritmos de búsqueda (ver post sobre documento de uso del laboratorio). Google cuenta también con un importante grupo de voluntarios dentro de la compañía que les ayuda a mejorar las búsquedas en diferentes idiomas. Muy pocos usuarios se leen las páginas de ayuda del buscador web, y son mayoría los que desconocen todas las posibilidades que ofrece. Por ello, nos encontramos cada vez más con información proveniente de otras herramientas de Google dentro de los resultados del buscador web. Es lo que se conoce como Página 1
Image of page 1
'Google Universal Search', presentado por el propio Manber hace justo un año. Hay diferentes grupos de trabajo dentro del Departamento de Calidad del buscador web, y dos de ellos están relacionados con los webmasters. Uno de ellos, para detectar cualquier intento de engaño por parte de algunos de ellos (el de 'Web Spam'), y otro para abrir un canal de comunicación con Google (el de 'Google Webmasters Tools').
Image of page 2
Image of page 3

  • Left Quote Icon

    Student Picture

  • Left Quote Icon

    Student Picture

  • Left Quote Icon

    Student Picture