domingo, 17 de abril de 2016

Acceso a la información

En la entrada de esta semana profundizaremos un poco más en el tema de los buscadores, comentando en la entrada anterior.

1.    Cómo funcionan los buscadores

Los buscadores surgen de la necesidad de ordenar, clasificar y localizar sitios web de cualquier tipo sin que el usuario tenga que memorizar todas sus direcciones. Los buscadores realizan esta tarea a través de diferentes tipos de herramientas software. La primera es la denominada spider (araña). Estos programas lo que hacen es ir recorriendo todos los sitios web de una forma metódica y automatizada. Estas arañas comienzan visitando un listado de direcciones web que se les proporciona, una vez que visita una página, la analiza y extrae todos los hipervínculos que esta tiene y los añade a la lista mencionada anteriormente. Gracias a esta técnica las arañas nos permiten acceder a miles de millones de páginas y registrando sus direcciones en grandes bases de datos.

Algunos buscadores, por ejemplo, Google, envía a las direcciones web que han ido obtenido las arañas, una especie de robots que lo que hace es ir almacenando todo el texto que esta posee. Una vez que se tiene todo el texto de la página se procede a realizar un análisis de la web, según los parámetros que el buscador crea más conveniente, aunque si se puede obtener un listado de los puntos más importantes que suelen tener la mayoría de los buscadores:
  • La frecuencia de actualización de los datos.
  • La lógica de búsqueda, mediante la cual se van acotando la localización de las palabras y temas solicitados por el usuario.
  • La rapidez con la se encuentra la información
  • La relevancia con la cual se presenta la información, en orden de importancia.

2.    Tipos de búsqueda

En la mayoría de los buscadores y para el usuario normal se pueden encontrar dos tipos de búsqueda.

Los directorios temáticos que organizan y clasifican la información que disponen sus bases de datos en forma jerárquica y por ir accediendo a diferentes subapartados partiendo del general, pudiendo llegar así al que el usuario le resulta más útil.
Las búsquedas por palabras clave, es el método más utilizado, se encarga de rastrear toda la información disponible sobre el tópico solicitado en la base de datos disponible.

En cualquiera de los dos casos, el éxito de la búsqueda dependerá no sólo del mecanismo que utiliza el buscador, si no de la experiencia que tenga el usuario para hacer la consulta.

3.    Tipos de búsqueda en Google

Ahora pasaremos a analizar las distintas formas en las cuales podemos realizar una búsqueda en Google:

  • Búsqueda por palabra: es la forma más común y la que la mayoría de usuarios realizamos. Se basa en introducir una palabra o una serie de palabras y nos mostrará todas aquellas páginas que contengan las palabras que hemos introducido. 
  • Búsqueda utilizando operadores booleanos: Se pueden realizar operadores con los cuales podemos afinar las búsquedas. Por ejemplo, usando el signo "-", si realizados la búsqueda de móviles - Samsung se mostrará aquellas páginas donde no aparezca móviles de Samsung. También se puede usar el operador OR en el cual nos mostrará información de las dos palabras que busquemos.
  • Búsquedas concretas: Si se usa Define: en una búsqueda, nos mostrará aquellas páginas donde se defina la palabra que hemos buscado. Otro caso es si utilizado filetype: en este caso nos mostrará páginas que contengan un archivo concreto, por ejemplo, filetype: pdf volcanes nos aparecerá aquellas páginas las cuales tendrán archivos pdf de volcanes.
  • Búsqueda avanzada: con este tipo de búsqueda podemos limitar mucho de páginas que queremos buscar, así como afinar mucho nuestra búsqueda.
  • Búsqueda por imágenes: Podemos realizar una búsqueda subiendo una imagen y Google será capaz de analizar esa imagen y nos mostrará imágenes que sean similares a ella.
  • Búsqueda académica: Este apartado de Google es más exacto y nos permita realizar búsquedas para encontrar libros, documentos, tesis, resúmenes, artículos científicos, material de editoriales. Esta opción nos permite realizar búsquedas de carácter más oficial ya que proporciona información que ha sido verificada.
Podemos resumir que hoy en día los buscadores es una herramienta indispensable para todos los usuarios, ya que si no la tarea de acceder a Internet sería tediosa y complicada para la mayoría de personas. Además, nos proporcionan una herramienta muy fácil de utilizar para poder encontrar cualquier tipo de información sin conocer las páginas previamente.




domingo, 3 de abril de 2016

El buscador de Google

El buscador de Google


En la entrada de esta semana, trataremos de explicar cómo funciona el buscador de Google. Los principales puntos que vamos a tratar serán los siguientes: El rastreo de los sitios web, la indexación de las diferentes páginas, y por último, que algoritmo usa.

Rastreo de los sitios web

Google utiliza un software denominado "rastreador web" para descubrir páginas web de dominio web público. El más conocido es "Googlebot". La función de este rastreador es la de ir accediendo a todas las páginas web públicas, e ir accediendo a todos los enlaces que la página web le proporciona con el fin de ir recopilando toda la información posible sobre el sitio web que está rastreando.

Al acceder a estos sitios web, el rastreado busca posibles enlaces de otras páginas web con el fin de descubrir nuevas páginas que no tuviera ya añadidas en sus bases de datos, además de clasificar estos sitios web según su actividad, valorando positivamente aquellas que son activas y negativamente aquellas que permanecen inactivas. (Al termino activas se considera aquellos sitios web en los que la información va cambiando en poco tiempo e inactivas aquellas que no se ha realizado ningún cambio en un largo periodo de tiempo).


Los diferentes programas de rastrear que usa Google están configurados para que con bastante frecuencia se rastrea un sitio web concreta o el número de páginas que debe de explorar en cada sitio. Es importante destacar que para que estos programas rastreadores de Google accedan a una página web en concreta, no se admiten pagos de ningún tipo, por tanto, es responsabilidad de Google realizar con frecuencia los análisis de sitios web. Personalmente creo que esto es algo que le interesa a Google ya que contra mayor sea realice este análisis más actualizado estarán sus bases de datos y así poder ofrecer al usuario los sitios web que mayor activo están, que por regla general es el que más solicita el usuario.

Indexación del contenido web

Internet se podría interpretar como una "biblioteca pública" en la cual hay miles de millones de páginas web y en la que carece de un sistema de registro. Esto es en lo que se basa Google, es dar un registro a esas páginas web, para que sin saber su URL se pueda acceder a ellas. En resumen, Google recopila las páginas web durante el proceso de rastreo, que hemos comentado en el apartado anterior, y una vez que ha realizado el rastreo crea un índice, por lo que sabemos exactamente dónde tenemos que buscar. Este índice de Google dispone de información sobre las palabras que aparecen en la web y en qué lugar aparecen, es decir, cuando se realiza una búsqueda, el sistema de Google busca las palabras que el usuario le ha introducido con las que ha almacenado en sus índices, así es como Google muestra las páginas apropiadas según la búsqueda que hemos realizado.


Cuando un usuario quiere buscar información concreta de, por ejemplo, un actor famoso, el sistema de Google no muestra sólo aquellas páginas en las que se repite ciento de veces el nombre del actor que hemos buscado, si no internamente Google interpreta que quieres diferente tipo de información como puede ser imágenes, vídeos, etc. En este momento es cuando entra a funcionar el gráfico de conocimiento que tiene Google el cual intenta ir más allá de las palabras que le ha introducido el usuario y trata de proporcionar información de, en este caso, películas que ha realizado el usuario, actores, actores similares al que ha realizado la búsqueda el usuario, además de las ultimas noticias de la persona en concreto.



Algoritmos

Lo que Google busca con sus algoritmos es que por cada búsqueda que realice un usuario se muestren un número limitado de páginas, y las expone en su primera página que muy poca gente accede al enlace que proporciona Google que están a partir de la segunda página. Básicamente, lo que hace es reducir el número de búsquedas ya que se pueden encontrar miles o millones de páginas que cumplen con los requisitos de la búsqueda que ha realizado el usuario.


Cuando un usuario realiza una búsqueda, el software busca en el índice (que se ha comentado anteriormente) las páginas que contienen esas palabras. Y, por regla general, se encuentra cientos de miles de resultados posibles. Para filtrar estas páginas, Google lo que hace es una serie de preguntas, como, por ejemplo: ¿Cuantas veces aparece las palabras clave en la página? ¿Aparecen en el título, en la URL o juntas? ¿Incluye sinónimos de esas palabras? ¿El sitio web al que pertenece es de alta, baja calidad o es de spam? Toda esta información se combina para generar la puntuación global de cada página y devuelve el resultado medio. Google coloca los diferentes sitios web según la puntuación que ha obtenido las diferentes páginas web. Cada entrada que se proporciona tiene el título de la página, la URL a la que pertenece y un fragmento de donde se encontró las palabras que búsqueda.




Conclusión

Como hemos visto, el buscador de Google se basa principalmente en tres factores. El primero en recopilar toda la información posible de todos los sitios web que pueda. El segundo se crea un índice para que así sea más fácil al software poder hacer a la información de las páginas web que ha ido rastreando. El tercer y último paso, se basa en clasificar los sitios web para así poder mostrar los de mayor calidad.


Hoy en día es muy importante que para que un sitio web quiera triunfar tiene que aparecer en las primeras páginas de Google, ya que normalmente a los sitios web donde más se accede es a los primeros que proporciona Google.


Bibliografía

http://www.google.es/intl/es/insidesearch/howsearchworks/algorithms.html
http://www.google.es/intl/es/insidesearch/howsearchworks/crawling-indexing.html
http://www.google.es/intl/es/insidesearch/features/search/knowledge.html