Paralelamente a la sesión de Tu & Respuestas con Matt Cutts en la conferencia SMX Advance 2010 en Seattle y que ha sido moderada por Danny Sullivan, el blog oficial de Google ha anunciado que la nueva infraestructura de su buscador que se la ha llamado Caffeine, ya está completamente online.
En la parte principal de esta entrada, se presenta la siguiente imagen
que trata de comparar en forma gráfica el antiguo indice y Caffeine. La diferencia entre ambos la explican así:
Our old index had several layers, some of which were refreshed at a faster rate than others; the main layer would update every couple of weeks. To refresh a layer of the old index, we would analyze the entire web, which meant there was a significant delay between when we found a page and made it available to you.
With Caffeine, we analyze the web in small portions and update our search index on a continuous basis, globally. As we find new pages, or new information on existing pages, we can add these straight to the index. That means you can find fresher information than ever before — no matter when or where it was published.
Caffeine lets us index web pages on an enormous scale. In fact, every second Caffeine processes hundreds of thousands of pages in parallel. If this were a pile of paper it would grow three miles taller every second. Caffeine takes up nearly 100 million gigabytes of storage in one database and adds new information at a rate of hundreds of thousands of gigabytes per day. You would need 625,000 of the largest iPods to store that much information; if these were stacked end-to-end they would go for more than 40 miles.
Bueno, los cambios en el indice ya se iban sintiendo en las últimas 4 a 5 semanas con los grandes cambios en el ranking, la bajada de posiciones de muchas webs, y también con la presentación de la nueva interfaz.
Ahora de que ya estamos seguros de que todos los data centers contienen el indice Caffeine, los webmaster y SEO pueden comenzar a analizar los resultados con la seguridad de que las fluctuaciones no son por los cambios, caprichos o errores de Google, sino que se deben a los resultados de los nuevos y/o actualizados algoritmos de la infraestructura Caffeine de Google.
Y finalmente, para darles un gustito de como poder usar los resultados del flamante indice de Google, les presento la siguiente herramienta para poder analizar la velocidad con la que Google ahora puede indexar las páginas:
1. Entrar a la página principal de Google realizar la búsqueda site:mi-dominio.com que muestra las páginas indexadas en Google.
2. En el menú de la izquierda, hacer clic en más herramientas, luego en más reciente. Los resultados que aparecen son las últimas páginas indexadas por el buscador, en mi caso aparece la siguiente imagen:
OJO: He publicado la entrada pero todavía no he colocado el resultado de la imagen esperando que esta nueva entrada sea indexada en el buscador… pero ahora si
Como se puede observar, Google ha tardado solamente 2 minutos en rastrear el blog desde que ha sido alertado de la publicación de esta nueva entrada, analizar todo el contenido de la página, rankearla y finalmente indexarla en los resultados del buscador.
Y bueno, todo esto sucede con millones de páginas por minuto, lo que es realmente sorprendente desde el punto de vista técnico y demuestra una vez más la gran capacidad de los ingenieros de Google.
Pero claro, esta indexación casi instantánea no sucede con todos los sitios web del mundo sino con un grupo que es seleccionado por Google de acuerdo a la popularidad de la web.
Con esta función se puede analizar varios aspectos de un sitio web:
1) Si la última página que se puede ver en los resultados de la función site: (más reciente) es antigua, es decir que data ya de mucho tiempo atrás y que las nuevas páginas que se han generado todavía no están en el indice, es una señal de que la página no es popular o interesante para Google o que puede haber sido penalizada por algún motivo.
2) Cuanto más rápido aparezca una nueva página en la función site: (más reciente) el sitio es considerado por Google más popular e importante.
Posiblemente se pueden sacar muchas más conclusiones de los resultados de la función site: en el modo «más reciente». Se te ocurre alguna interesante?
Actualización 1
Y aquí otra prueba de Caffeine: los resultados para la búsqueda SMX caffeine muestran que esta entrada ya está en la tercera posición y ha sido indexada hace 21 minutos
Actualización 2
Vanessa Fox explica con más detalles la nueva infraestructura Caffeine. Y entre las cosas más interesantes que menciona: Caffeine permite mucha más flexibilidad en el tipo de detalles que se pueden guardar con un documento, es decir una página web, una imagen, o un vídeo rastreado por el googlebot. Esto permitirá registrar mucha más información sobre cada documento, sin necesidad de cambiar el software.
Y a pesar de que en realidad Caffeine no es un cambio en el algoritmo de posicionamiento, va a tener un impacto en el mismo, ya que permitirá por ejemplo registrar nuevos parámetros o señales asociadas a las páginas que pueden ser usadas en el algoritmo para calcular su posición en el indice.
Google+
Max, tengo una duda en tu frase «Google ha tardado solamente 2 minutos en rastrear el blog desde que ha sido alertado de la publicación de esta nueva entrada, analizar todo el contenido de la página, rankearla y finalmente indexarla en los resultados del buscador.»
Google indexa y la posiciona al mismo tiempo? creía que la mayoría de las veces la indexa y después va decidiendo su futuro.
Saludos
Neri:
El índice es la lista de resultados para una búsqueda dada, y bueno la posición es el lugar en la lista que ocupa una página para esa búsqueda.
Anteriormente el índice era estático y tenia que ser calculado completamente en forma periódica. Ahora el índice y en consecuencia las posiciones son dinámicas: Cuando el googlebot por ejemplo rastrea una nueva página o una página ya registrada pero que esta en su lista de rastreo (scheduler) , este documento después de ser analizado, es incorporado al indice inmediatamente (ahora en cuestión de segundos). Si el algoritmo de posicionamiento lo rankea muy bien, puede desplazar de posición a otras páginas del indice.
Entonces, teoreticamente las posiciones del índice pueden cambiar constantemente a medida que ingresen nuevas páginas en el transcurso del tiempo. Y justamente eso es a lo que te refieres diciendo «va decidiendo su futuro».
Sitios webs que son populares y que tienen un fuerte TrustRank para Google, se mantienen casi siempre firmes en sus posiciones en el transcurso del tiempo, y por eso se ven solamente pequeñas fluctuaciones en las posiciones.
Generalmente, las páginas nuevas reciben un «bono de novedad» (de nuevo) y por eso inicialmente aparecen en las primeras posiciones, pero a medida que pasa el tiempo, van cayendo de posición hasta acomodarse en su «posición natural».
Claro, a «bono de novedad» me refería con indexación, ya que la mayoría de las veces cuando indexa una web la «deja» o posiciona mejor y despues la baja, luego va decidiendo el puesto definitivo según vengo viendo hace rato.
Gracias por la explicación, saludos.