Algunas consideraciones sobre los robots indexadores para búsqueda
Es curioso que la gente rechaza contestar una encuesta, y le regala todas sus opiniones a los robots. Quizás deberíamos plantearnos la necesidad de decirle a los robots cuales enlaces nos gustan o no, y aún más quizás deberíamos empezar a plantearnos en engañarlos en ciertas cuestiones, si ustedes "postean" y los robots recogen los post, puede aparecer todo un historial de los blog que visitas,..., los blog, deberían tener el metatag de exclusión citado mas abajo, y: DEBERIAN ESCRIBIR BIEN CLARITO:
"las opiniones de este blog no aparecen en los robots"
Para que las personas que quieran postear lo hagan sabiendo que van ha ser publicadas sus opiniones, y que por lo tanto van a poder ser registradas, ordenadas y clasificadas.
Un fichero que deberíamos conocer es el robot.txt, que tiene que estar en el directorio raiz de la web, teóricamente si está en cualquier otro directorio también deberían respetarlo, pero no lo hacen, Se trata de un vulgar archivo de texto, que se puede crear, editar y guardar con cualquier editor, y que dentro lleva en general lo siguiente:
User-Agent:
(nombre del robot) (o, *) (si ponemos "*"
estamos nombrando a todos los robots
Disallow:
(archivo que excluimos que lea) (o, /) (si ponemos "/
" impedimos el paso a todas las páginas),(/nombre del directorio/, excluimos
todos los archivos de ese directorio) () (si está vacío el robot nombrado
arriba tiene total acceso)
Allow: /searchhistory/ estamos diciendo el directorio que le dejamos indexar
un ejemplo
User-agent: webcrawler Disallow: User-agent: lycra User-agent: BadBot Disallow: / Establecemos total libertad para webcrawler, porque dejamos Disallow vacio En cambio lycra y BadBot, tiene prohibido totalmente el acceso User-agent: * Disallow: /*.pdf$ Disallow: /*.jpeg$ Disallow: /*.exe$ Estamos diciéndoles a todos los robots tenéis prohibido indexar los ficheros con extensión .pdf , .jpeg .exe . Como hemos olvidado .jpg, estos si los indexará.
User-Agent: Googlebot
Disallow: /*.asp$
con el $
le decimos a googlebot que estan bloquedas las URL
que finaliza con .asp
User-agent: * Disallow: /tmp/ Disallow: /logs/
Estamos diciendo todos los robots, señalado mediante *, que tienen prohibido el acceso a los directorios /tmp/ y, /log/ ,como no nombramos los demás directorios, tienen libertad total para rastrear el resto.
User-Agent: Googlebot Disallow: /privado*/
bloqueamos a googlebot el acceso a todos los subdirectorios que comienzan por "privado", ( no todos los robots saben discriminar esta orden)
User-agent: Googlebot
Disallow: /*?*
bloqueamos a googlebot el acceso a todas
las URL que incluyen un signo de interrogación (?)
User-agent: * Allow: /*?$ Disallow: /*?
Visit-time: 0200-0745
Request-rate: 1/30m
estamos diciéndoles podéis trabajar de 2 am a 7:45 am (Las horas son siempre formato Greenwitch) y solo puedes rastrear un documento cada 30 minutos, esto últimos es interesante si no queremos que nos coman ancho de línea
Request-rate: 1/10m 1300-1659
estamos diciéndoles podéis rastrear un documento cada 10 minutos
y solo desde la 1 pm hasta las 5 pm
User-agent: msnbot
Estamos diciéndole al robot msnbot rastrea
SOLO durante 120 SEGUNDOS
Crawl-delay: 120
User-agent: *
hasta aquí la fórmula robots.txt ................>
Si quiere permitir que los exploradores indexen páginas individuales de su
sitio, pero quiere evitar que los robots de Google indexen sus páginas use la
siguiente etiqueta meta en la página:
<meta content="NOINDEX, NOFOLLOW" name="GOOGLEBOT" />
En general los robots no hacen caché, caché es como una fotocopia de la páqina web que guardan, pero goglito si hace caché, y además la ofrece, y aquí viene el problema, si en número de páginas web que manejas es alto, puede ocurrir que un determinado texto lo quieras eliminar, lo borras y ya está, pero no, si está en la caché de google no, lo tienes claro, te puedes tirar meses y el texto seguirá allí. para evitarlo, usa esta metatag, yo diría que siempre.
<META NAME="GOOGLEBOT" CONTENT="NOARCHIVE">
puede que necesites algunos nombres de robots, abajo tienes algunos, y mas abajo directamente en enlace Aquí tienes todos los datos de cada robot, con todos los datos y páginas web. Esta página me gusta mas, te da incluso las i.p. Mas sobre robot + >>
Me cabe añadir que ese archivo debe estar en todas y cada una de las i.p. como ya te dije en uno de los enlaces tienes las ips, http://72.14.209.104/ sobre las que se soportan. Es de bien nacidos llamar a la puerta antes de entrar, no tomes como práctica lo que los chicos de google hicieron, se ufanaron de tener 3.000.000 millones de páginas indexadas cuando se presentaron en sociedad, Tengamos en cuenta que nadie podía prohibirles el paso pues no conocían el nombre del robot, si hablamos con propiedad podríamos decir que la primera gran ilegalidad en internet fue de google,
Más arriba en uno de los enlaces de robots aparece xenu, entre otros, tienen un pequeño robot para windos es decir puedes bajarte >> e instalarte un programilla de medio mega, que entre otras cosas tiene la utilidad de generarte un sitemap de web, o, test de urls que fallan, y otras utilidades que puedes encontrarle, como rastrear a xxx en busca de algún mail para poder quejarte a alguien etc. etc. eso si, no te vayas al bar y dejes el rastreador puesto, en la página de google, si muchos lo hicieran, en vez de medicina, sería veneno, los robots, se quedarían sin ancho de banda, y no podrían servir búsquedas.