El buscador de Google
En la entrada de esta semana, trataremos de explicar cómo funciona el
buscador de Google. Los principales puntos que vamos a tratar serán los
siguientes: El rastreo de los sitios web, la indexación de las diferentes
páginas, y por último, que algoritmo usa.
Rastreo de los sitios web
Google utiliza un software denominado "rastreador web" para
descubrir páginas web de dominio web público. El más conocido es
"Googlebot". La función de este rastreador es la de ir accediendo a
todas las páginas web públicas, e ir accediendo a todos los enlaces que la
página web le proporciona con el fin de ir recopilando toda la información
posible sobre el sitio web que está rastreando.
Al acceder a estos sitios web, el rastreado busca posibles enlaces de otras
páginas web con el fin de descubrir nuevas páginas que no tuviera ya añadidas
en sus bases de datos, además de clasificar estos sitios web según su
actividad, valorando positivamente aquellas que son activas y negativamente
aquellas que permanecen inactivas. (Al termino activas se considera aquellos
sitios web en los que la información va cambiando en poco tiempo e inactivas
aquellas que no se ha realizado ningún cambio en un largo periodo de tiempo).
Los diferentes programas de rastrear que usa Google están configurados para
que con bastante frecuencia se rastrea un sitio web concreta o el número de
páginas que debe de explorar en cada sitio. Es importante destacar que para que
estos programas rastreadores de Google accedan a una página web en concreta, no
se admiten pagos de ningún tipo, por tanto, es responsabilidad de Google
realizar con frecuencia los análisis de sitios web. Personalmente creo que esto
es algo que le interesa a Google ya que contra mayor sea realice este análisis
más actualizado estarán sus bases de datos y así poder ofrecer al usuario los
sitios web que mayor activo están, que por regla general es el que más solicita
el usuario.
Indexación del contenido web
Internet se podría interpretar como una "biblioteca pública" en
la cual hay miles de millones de páginas web y en la que carece de un sistema
de registro. Esto es en lo que se basa Google, es dar un registro a esas
páginas web, para que sin saber su URL se pueda acceder a ellas. En resumen,
Google recopila las páginas web durante el proceso de rastreo, que hemos
comentado en el apartado anterior, y una vez que ha realizado el rastreo crea
un índice, por lo que sabemos exactamente dónde tenemos que buscar. Este índice
de Google dispone de información sobre las palabras que aparecen en la web y en
qué lugar aparecen, es decir, cuando se realiza una búsqueda, el sistema de
Google busca las palabras que el usuario le ha introducido con las que ha
almacenado en sus índices, así es como Google muestra las páginas apropiadas
según la búsqueda que hemos realizado.
Cuando un usuario quiere buscar información concreta de, por ejemplo, un
actor famoso, el sistema de Google no muestra sólo aquellas páginas en las que
se repite ciento de veces el nombre del actor que hemos buscado, si no
internamente Google interpreta que quieres diferente tipo de información como
puede ser imágenes, vídeos, etc. En este momento es cuando entra a funcionar el
gráfico de conocimiento que tiene Google el cual intenta ir más allá de las
palabras que le ha introducido el usuario y trata de proporcionar información
de, en este caso, películas que ha realizado el usuario, actores, actores
similares al que ha realizado la búsqueda el usuario, además de las ultimas
noticias de la persona en concreto.
Algoritmos
Lo que Google busca con sus algoritmos es que por cada búsqueda que realice
un usuario se muestren un número limitado de páginas, y las expone en su
primera página que muy poca gente accede al enlace que proporciona Google que
están a partir de la segunda página. Básicamente, lo que hace es reducir el
número de búsquedas ya que se pueden encontrar miles o millones de páginas que
cumplen con los requisitos de la búsqueda que ha realizado el usuario.
Cuando un usuario realiza una búsqueda, el software busca en el índice (que
se ha comentado anteriormente) las páginas que contienen esas palabras. Y, por
regla general, se encuentra cientos de miles de resultados posibles. Para
filtrar estas páginas, Google lo que hace es una serie de preguntas, como, por ejemplo:
¿Cuantas veces aparece las palabras clave en la página? ¿Aparecen en el título,
en la URL o juntas? ¿Incluye sinónimos de esas palabras? ¿El sitio web al que
pertenece es de alta, baja calidad o es de spam? Toda esta información se
combina para generar la puntuación global de cada página y devuelve el
resultado medio. Google coloca los diferentes sitios web según la puntuación
que ha obtenido las diferentes páginas web. Cada entrada que se proporciona
tiene el título de la página, la URL a la que pertenece y un fragmento de donde
se encontró las palabras que búsqueda.
Conclusión
Como hemos visto, el buscador de Google se basa principalmente en tres
factores. El primero en recopilar toda la información posible de todos los
sitios web que pueda. El segundo se crea un índice para que así sea más fácil
al software poder hacer a la información de las páginas web que ha ido
rastreando. El tercer y último paso, se basa en clasificar los sitios web para
así poder mostrar los de mayor calidad.
Hoy en día es muy importante que para que un sitio web quiera triunfar
tiene que aparecer en las primeras páginas de Google, ya que normalmente a los
sitios web donde más se accede es a los primeros que proporciona Google.
Bibliografía
http://www.google.es/intl/es/insidesearch/howsearchworks/algorithms.html
http://www.google.es/intl/es/insidesearch/howsearchworks/crawling-indexing.html
http://www.google.es/intl/es/insidesearch/features/search/knowledge.html
No hay comentarios:
Publicar un comentario