Según el análisis de muchos SEO’s, uno de los motivos por los cuales muchos sitios web han sido penalizados por Google últimamente (ver cambios en Google), es el ajuste de los filtros de contenido duplicado o DC (por sus siglas en inglés: duplicate content).
En los últimos meses Google ha estado trabajando intensamente en luchar contra el spam en el motor de búsqueda y ha estado aplicando diferentes filtros, como el de antigüedad, el SandBox, de catálogos, y el de contenido duplicado.
Una posibilidad de comprobar si una pagina tiene contenido duplicado es usando la herramienta copyscape . También se pueden buscar pasajes de texto de la pagina a controlar directamente en Google, colcandolos entre comillas.
Los motivos para que se genere un contenido doble son diversos y pueden ser involuntarios, motivados o por plagio.
Las principales fuentes de origen del contenido duplicado son:
1. Páginas canónicas
Este es generalmente un error del servidor Web. La página puede ser visible tanto desde la url http://www.mi-dominio.com como http://mi-dominio.com. Si es que los robots de google indexan al sitio con las dos diferentes direcciones, tarde o temprano Google penalizará a una de ellas.
Una posibilidad de evitar este tipo de contenido duplicado es redireccionar http://mi-dominio.com a la dirección estándar. Esto se puede hacer en el archivo .htaccess de la siguiente forma:
RewriteEngine On
RewriteCond %{HTTP_HOST} !^www\.mi-dominio\.com$
RewriteRule ^(.*)$ http://www. mi-dominio.com/$1 [L,R=301]
2. Shops
Los sitios que contienen shops tienen siempre una estructura similar y son muy parecidos a los catálogos web ya que son simplemente una colección de links. Por otra parte estos shops generalmente sacan la descripción de los productos directamente del fabricante o de la base de datos de los afiliados. De esta manera aparecen cientos de paginas con el mismo contenido ofreciendo el mismo producto.
Otra fuente de contenido duplicado es la presentación de diferentes modelos de un producto. En este caso las páginas varían muy poco, posiblemente solo por el número del producto.
Una forma de evitar el contenido duplicado seria usar solamente descripciones propias y colocar en cada página información adicional para evitar la similitud con otras páginas.
3. Cambios en la estructura del sitio
Muchas veces uno desea cambiar la estructura de las páginas del sitio, por ejemplo cambiando las url con variables a nombres estáticos con la ayuda de mod_rewrite. En este caso Google tiene las páginas antiguas y los robots las leen con los nuevos nombres. De esta manera se puede generar contenido duplicado.
Por este motivo, antes de hacer algún cambio de este tipo se debe estudiar a detalle las posibles consecuencias y tratar de evitar la generación de contenido duplicado. Una posibilidad seria redireccionar (301) las páginas con variables a las url’s estáticas o devolver simplemente un error 404 (page not found).
4. Plagio
Muchas veces la competencia copia pasajes o páginas enteras con el único fin de poder posicionarse mejor en los buscadores.
En este caso se debe contactar primeramente al webmaster de la página que ha plagiado el contenido y conminarlo a que la quite de su web. En otros casos también se podría recurrir al camino de los abogados.
Otra posibilidad seria refrescar el contenido plagiado y así mejorar nuevamente el propio sitio. El riesgo que se corre aquí, es que después de algún tiempo este nuevo contenido aparezca nuevamente en otras webs.