Los principales buscadores de Internet construyen sus bases de datos usando robots comúnmente denominados spiders (arañas), crawlers o webcrawlers. Estos robots son potentes programas que recorren la Web de forma automática y buscan textos, a través de los documentos HTML (u otro tipo de formatos como pdf, imágenes, etc.), donde se incluyan determinadas palabras. Estos textos, junto con las direcciones URL que los contienen, son indexados, clasificados y almacenados en grandes bases de datos para que los internautas, posteriormente, dirijan allí sus consultas e interroguen a la base de datos buscando alguna palabra o frase. Los robots vuelven a recorrer periódicamente estas páginas para buscar alguna modificación o la incorporación de nuevas palabras. Así, la actualización se realiza de forma automática. En general, los robots comienzan con un listado de enlaces y URLs preseleccionadas y, recurrentemente, visitan los documentos que se referencian desde las mismas.
Así pues, en la red hay varios sistemas de búsqueda e indización basados en robots software que:
- recuperan y procesan todas las páginas web que encuentran
- extraen información de referencia (índices) sobre las páginas, esto es, las indizan
- los índices se almacenan en bases de datos que ofrecen servicios de búsqueda basados en expresiones y palabras clave
Ejemplos de robots son:
- Gigabot (robot de Gigablast)
- Googlebot (robot de Google)
- Mozilla Compatible Agent (robot de Yahoo)
- Msnbot (robot de MSN)
De esta forma, podemos definir un robot como un programa que recorre una estructura de hipertexto recuperando un enlace y todos los enlaces que están referenciados para, a partir de ahí, alimentar las grandes bases de datos de los motores de búsqueda de la Web. Por el contrario, los Índices y Directorios suelen formarse de forma manual operados por humanos (o de forma automática, pero una vez que los humanos han introducido los datos en el índice por categorías y subcategorías) y no recuperan automáticamente los enlaces incluidos en las páginas web, sino que sólo se limitan a hallar lo que las personas previamente incluyen en ellos, pudiendo como ventaja, clasificar fácilmente por secciones los temas de las páginas web.
Robots: los robots adoptan numerosas denominaciones. Casi todas ellas tienen que ver con la metáfora de la Web como telaraña en la que estos robots se mueven como virus. Sin embargo, lo único que hace un robot es visitar los sitios y extraer los enlaces que están incluidos dentro de estos.
He aquí los principales tipos y denominaciones de robots:
- Arañas (Spiders): es un programa usado para rastrear la red. Lee la estructura de hipertexto y accede a todos los enlaces referidos en el sitio web. Se utiliza como sinónimo de robot y crawler.
- Gusanos (Worms): es lo mismo que un robot, aunque técnicamente un gusano es una réplica de un programa, a diferencia de un robot que es un programa original. Se usan, por ejemplo, para duplicar los directorios de FTP para que puedan acceder más usuarios.
- Orugas (Web crawlers): es un tipo específico de robot que ha dado lugar al nombre de algunos buscadores como Webcrawler y MetaCrawler.
- Hormigas (WebAnts): cooperativa de robots. Trabajan de forma distribuida, explorando simultáneamente diferentes porciones de la Web. Son robots que cooperan en un mismo objetivo, por ejemplo, para llevar a cabo una indización distribuida.
- Vagabundos (Wanderes): son una clase de robots que realizan estadísticas sobre la Web, como por ejemplo, número de servidores, servidores conectados, número de webs, etc.
- Robots de conocimiento (Knowbots): localizan referencias hipertextuales dirigidas hacia un documento o servidor concreto. Permiten evaluar el impacto de las distintas aportaciones que engrosan las distintas áreas de conocimiento de la Web.
No hay comentarios:
Publicar un comentario