Búsqueda y Gestión de la Información y Recursos Multimedia: El buscador de Google

El buscador de Google

En la entrada de esta semana, trataremos de explicar cómo funciona el buscador de Google. Los principales puntos que vamos a tratar serán los siguientes: El rastreo de los sitios web, la indexación de las diferentes páginas, y por último, que algoritmo usa.

Rastreo de los sitios web

Google utiliza un software denominado "rastreador web" para descubrir páginas web de dominio web público. El más conocido es "Googlebot". La función de este rastreador es la de ir accediendo a todas las páginas web públicas, e ir accediendo a todos los enlaces que la página web le proporciona con el fin de ir recopilando toda la información posible sobre el sitio web que está rastreando.

Al acceder a estos sitios web, el rastreado busca posibles enlaces de otras páginas web con el fin de descubrir nuevas páginas que no tuviera ya añadidas en sus bases de datos, además de clasificar estos sitios web según su actividad, valorando positivamente aquellas que son activas y negativamente aquellas que permanecen inactivas. (Al termino activas se considera aquellos sitios web en los que la información va cambiando en poco tiempo e inactivas aquellas que no se ha realizado ningún cambio en un largo periodo de tiempo).

Los diferentes programas de rastrear que usa Google están configurados para que con bastante frecuencia se rastrea un sitio web concreta o el número de páginas que debe de explorar en cada sitio. Es importante destacar que para que estos programas rastreadores de Google accedan a una página web en concreta, no se admiten pagos de ningún tipo, por tanto, es responsabilidad de Google realizar con frecuencia los análisis de sitios web. Personalmente creo que esto es algo que le interesa a Google ya que contra mayor sea realice este análisis más actualizado estarán sus bases de datos y así poder ofrecer al usuario los sitios web que mayor activo están, que por regla general es el que más solicita el usuario.

Indexación del contenido web

Internet se podría interpretar como una "biblioteca pública" en la cual hay miles de millones de páginas web y en la que carece de un sistema de registro. Esto es en lo que se basa Google, es dar un registro a esas páginas web, para que sin saber su URL se pueda acceder a ellas. En resumen, Google recopila las páginas web durante el proceso de rastreo, que hemos comentado en el apartado anterior, y una vez que ha realizado el rastreo crea un índice, por lo que sabemos exactamente dónde tenemos que buscar. Este índice de Google dispone de información sobre las palabras que aparecen en la web y en qué lugar aparecen, es decir, cuando se realiza una búsqueda, el sistema de Google busca las palabras que el usuario le ha introducido con las que ha almacenado en sus índices, así es como Google muestra las páginas apropiadas según la búsqueda que hemos realizado.

Cuando un usuario quiere buscar información concreta de, por ejemplo, un actor famoso, el sistema de Google no muestra sólo aquellas páginas en las que se repite ciento de veces el nombre del actor que hemos buscado, si no internamente Google interpreta que quieres diferente tipo de información como puede ser imágenes, vídeos, etc. En este momento es cuando entra a funcionar el gráfico de conocimiento que tiene Google el cual intenta ir más allá de las palabras que le ha introducido el usuario y trata de proporcionar información de, en este caso, películas que ha realizado el usuario, actores, actores similares al que ha realizado la búsqueda el usuario, además de las ultimas noticias de la persona en concreto.

Algoritmos

Lo que Google busca con sus algoritmos es que por cada búsqueda que realice un usuario se muestren un número limitado de páginas, y las expone en su primera página que muy poca gente accede al enlace que proporciona Google que están a partir de la segunda página. Básicamente, lo que hace es reducir el número de búsquedas ya que se pueden encontrar miles o millones de páginas que cumplen con los requisitos de la búsqueda que ha realizado el usuario.

Cuando un usuario realiza una búsqueda, el software busca en el índice (que se ha comentado anteriormente) las páginas que contienen esas palabras. Y, por regla general, se encuentra cientos de miles de resultados posibles. Para filtrar estas páginas, Google lo que hace es una serie de preguntas, como, por ejemplo: ¿Cuantas veces aparece las palabras clave en la página? ¿Aparecen en el título, en la URL o juntas? ¿Incluye sinónimos de esas palabras? ¿El sitio web al que pertenece es de alta, baja calidad o es de spam? Toda esta información se combina para generar la puntuación global de cada página y devuelve el resultado medio. Google coloca los diferentes sitios web según la puntuación que ha obtenido las diferentes páginas web. Cada entrada que se proporciona tiene el título de la página, la URL a la que pertenece y un fragmento de donde se encontró las palabras que búsqueda.

Conclusión

Como hemos visto, el buscador de Google se basa principalmente en tres factores. El primero en recopilar toda la información posible de todos los sitios web que pueda. El segundo se crea un índice para que así sea más fácil al software poder hacer a la información de las páginas web que ha ido rastreando. El tercer y último paso, se basa en clasificar los sitios web para así poder mostrar los de mayor calidad.

Hoy en día es muy importante que para que un sitio web quiera triunfar tiene que aparecer en las primeras páginas de Google, ya que normalmente a los sitios web donde más se accede es a los primeros que proporciona Google.

Bibliografía

http://www.google.es/intl/es/insidesearch/howsearchworks/algorithms.html

http://www.google.es/intl/es/insidesearch/howsearchworks/crawling-indexing.html

http://www.google.es/intl/es/insidesearch/features/search/knowledge.html

Búsqueda y Gestión de la Información y Recursos Multimedia

domingo, 3 de abril de 2016

El buscador de Google

El buscador de Google

Rastreo de los sitios web

Indexación del contenido web

Algoritmos

Conclusión

Bibliografía

No hay comentarios:

Publicar un comentario