Rand de SEOmoz ha publicado un interesante artículo, listando 12 formas de ocultar contenidos a los bots de los buscadores.
las posibles razones para evitar que los motores de búsqueda indexen el cotenido de una página web son:
– Privacidad
– Evitar contenido duplicado
– Canibalización de palabras claves
– Evitar indexación de páginas con muy poco contenido
– Evitar elevado consumo de ancho de banda
Existen muchos «métodos legales» para evitar que los bots de los motores de búsqueda, entre los cuales se pueden mencionar:
– Robots.txt
– Metatag robots
– Iframes bloqueando esa página con robots.txt
– Texto en imagenes
– Java Applets
– Uso de formularios
– Páginas protegidas con contraseñas
– Bloquar o cloacking mediante user-agent
– Bloquear o cloacking mediante rangos de direcciónes de IP
– Usar el nofollow tag (aunque no es realmente efectivo)
– Borrar la URL desde a consola de Google Webmaster
– Codificar el contenido para evitar que sea encontrado por palabras claves
Yo creo que lo mejor es el bloqueo directo desde la configuración del servidor. De todas forma he notado que últimamente Google está especialmente pesado queriendo acceder a directorios cerrados que siempre lo han estado.
Saludos avinagrado.
Te refieres al uso de reglas en .htaccess? Claro, es la forma más segura de bloquear cualquier cosa.
El uso de robots.txt es una solución más elegante, si se asume que todos los bots lo van a respetar. En la práctica, no siempre es así.