Archivo de la categoría: Posicionamiento

Principios del posicionamiento en buscadores

Las actualizaciones de Google con nuevo enfoque

Después de que Matt explico en una de las sesiones en vídeo en forma general como está funcionando la nueva infraestructura de Google (ver nota), ya es más manejable y explicable todo lo que ha estado sucediendo con el índice del buscador.

Las ultimas actualizaciones del índice que ocurrieron el 27 de Junio y el 27 de Julio y que afectaron una gran cantidad de sitios se debieron a cambios/actualizaciones en los algoritmos, que generalmente los SEOs los denominan filtros.

Mientras que los cambios que perciben algunos webmasters casi a diario con las bajadas y subidas de sus webs, se deben a las actualizaciones de los datos que son usados por estos algoritmos. Estos datos pueden ser por ejemplo el número de enlaces entrantes, el PageRank, el ingreso de nuevas páginas al índice, o el recalculo de parámetros de otras páginas que podrían afectar la posición de la página en cuestión.

Los SEOs están manejando algunas teorías sobre las ultimas actualizaciones de los algoritmos de Google. Por ejemplo seobook menciona que la valoración del anchor text de los enlaces entrantes se ha depreciado.

Otra teoría, que trata de explicar en especial las caídas del 27.06 y 27.07, menciona que sitios grandes con una débil popularidad, es decir con enlaces entrantes débiles, han sido devaluados. Adicionalmente la estructura de enlaces internos de estos sitios también ha sido devaluada y por este motivo la mayoría de las páginas han caído considerablemente.

Aunque estas aseveraciones no han sido completamente probadas, valen para un cierto número de sitios y por lo menos dan algunos indicios de que se debe mejorar para que las webs afectadas puedan nuevamente repuntar.

Sobre la función site: en el buscador de Google

Una métrica para saber cuantas páginas de un sitio han sido indexadas en el buscador es la función site:mi-dominio.com

Como GoogleGuy y Matt Cutts mencionaron, los ingenieros de Google no le tomaron mucho interés a esta función. En el ultimo tiempo y debido a todos los cambios realizados a los algoritmos del buscador, esta función mostraba resultados un poco abultados.

Hace varios días GoogleGuy informaba en un hilo de WMW de que el data center 72.14.207.104 contenía una función mejorada de site que mostraba resultados más cercanos a la realidad sobre el número de páginas indexadas en el buscador.

En los últimos días parece que esta función mejorada se ha propagado a los otros data centers, y ahora la función site en todos los DCs muestra resultados similares al del DC mencionado.

Después de hacer algunas pruebas, todavía estoy muy convencido de que estos nuevos resultados sean realmente los correctos aunque parecen aproximarse más a la realidad.

Como sabe Google cual es el tema de tu web?

Ya hace algún tiempo que en el mundo SEO se esta hablando de términos como tema de una web, y autoridad de una web en un tema especifico.

Bueno, para el dueño o webmaster de una web no es difícil conocer cual es el tema de su web. Generalmente todo el contenido de la web se orientará al tema o los temas elegidos.

Pero como puede Google con sus robots conocer el tema de tu web? Esta es una pregunta que me he hecho ya hace bastante tiempo. Y justamente hoy día me parece haber encontrado la respuesta:

El tema de una web en Google se define en base a la densidad de palabras de todas las páginas que contiene la web.

Y también me parece haber encontrado la prueba de esta suposición o hipótesis: Una de las herramientas que Google recientemente habilitó en Google Webmaster Tools (aka sitemaps) es justamente ‘Statistics->Page analisys->Common words->In your site’s content’. Aquí Google muestra realmente la densidad de palabras de toda la web.

Entonces, para saber si Google ha reconocido correctamente el tema de tu web, lo único que debes hacer es usar esta herramienta y verificar si las palabras que aparecen en los primeros lugares son realmente aquellas palabras que tu has definido como tema de tu proyecto.

Yo creo que muchos webmasters se van a llevar una gran sorpresa al observar que las palabras que aparecen en los primeros lugares de esta herramienta no son las que ellos suponían ser el tema de la web. Y esto tiene una explicación muy sencilla: Muchos webmasters tratan de ahorrar usando un solo dominio para diferentes temas lo cual puede diluir la densidad general de palabras de una web. Por ende, Google no puede o define erróneamente el tema de la web lo que puede generar muchas desventajas al querer posicionar una página en el índice del buscador.

Sobre las ultimas actualizaciones de Google

En los últimos días Matt Cutts ha estado presentando varias sesiones de videos, en las cuales responde a las preguntas que los webmasters han escrito en su weblog.

La sesión 8 me parece una de las más interesantes, pues Matt explica algunos conceptos que se usan en relación a las actualizaciones del buscador, y especialmente a las actualizaciones del 27.06. y 27.07.

Aquí una transcripción semántica de las mas importantes partes de este video:

Actualizacion del indice (index update)
En el año 2003 este tipo de actualizaciones era comun y se realizaba mensualmente. Se podían modificaban los algoritmos, los datos, en realidad todo podía cambiar. Era una tarea bastante compleja.

Ahora que Google puede refrescar el índice en forma diaria, es un proceso de flujo continuo. Lo que la mayoría de los usuarios puede apreciar son las actualizaciones de los algoritmos.

Ya no se observan muchas actualizaciones del índice, debido a que se cambio el ciclo mensual de actualizaciones al refrescado (refresh) diario. La única situación en que se pueden observar actualizaciones del índice es cuando existen algunas incompatibilidades entre el índice antiguo y el nuevo. Entonces es necesario recalcular el índice completamente.

Actualización de algoritmos (algortihm update)
En principio sucede cuando se cambian los algoritmos, por ejemplo cuando se cambian los pesos para el PageRank. Estas actualizaciones pueden suceder con bastante frecuencia y son llamados asincronicos, ya que se aplican después de que son evaluados positivamente y mejoran la calidad del índice.

Estas actualizaciones ocurren semanalmente o mensualmente. Y justamente los cambios que los usuarios han percibido en 27.06 y 27.07 fueron actualizaciones de algoritmos que ya estan funcionado hace mas de año y medio. (Aquí Matt da algunos consejos a los webmasters que han sido afectados por estas actualizaciones indicando que revisen sus páginas muy bien y que busquen si han sido sobre optimizadas, y si la página tiene buen contenido, Google la colocará nuevamente en su posición correcta)

Refescado de datos (data refresh)
Es la parte más pequeña de los cambios que se realizan, y son los cambios de datos sobre los cuales los algoritmos trabajan.

El refrescado de datos sucede continuamente, por ejemplo el PageRank se calcula continuamente y es usado por los algoritmos.

Matt presenta una metáfora con un carro: una actualización de índice significaría cambiar partes grandes y principales del carro. Una actualización de los algoritmos sería como cambiar solo algunas partes del carro. Mientras el refrescado de datos significaría el cambio de gasolina en el carro, es decir lo que usa el carro para funcionar.

Me parece que estas son las primeras informaciones casi oficiales de Google que obtenemos sobre el funcionamiento de la nueva infraestructura BigDaddy y explica muy bien el porqué los webmasters estaban tan desconcertados con los resultados del buscador:

  • El antiguamente conocido Google Dance es simplemente la actualización completa del índice que ya no se observa más.
  • Las bajadas y subidas continuas de posición en el Ranking de las páginas se deben al refrescado de los datos que ocurre continuamente. Aquí también se debe mencionar que el PageRank, que es calculado continuamente, tiene su influencia inmediata en el Ranking y la barrita verde de la Toolbar de Google solo muestra un valor obsoleto.
  • Finalmente, los cambios del Rnaking que pueden ser percibidos por muchos webmasters se deben a las actualizaciones o introducción de algoritmos (que talvez en este caso también se los pueda llamar filtros) que pretenden mejorar la calidad del índice.

Novedades sobre el buscador de Google

A pesar de que todavía estoy de vacaciones disfrutando del verano europeo y esperando los ultimos partidos del mundial 2006, voy a escribir una pequeña nota sobre los cambios que están ocurriendo en el buscador de Google en los últimos días.

Actualización del PageRank visible
Muchos foreros están mencionando de que actualmente se esta realizando una actualización del PR. Algunas páginas han cambiado de PR, especialmente páginas nuevas e internas.

Para los que deseen controlar el PR en diferentes data centers, pueden usar una de mis herramientas: PageRank Monitor.

Y para los que deseen concocer el PR de todas las páginas internas de una web pueden usar la herramienta para analizar enlaces internos.

Actualización de los algoritmos de Google
Entre el 30.06.2006 y el 01.07.2006 aparentemente Google ha cambiado algunos parámetros de sus algoritmos, lo que ha causado que muchas webs hayan perdido sus posiciones en el Ranking. Como ya es bien conocido, cuando suceden grandes cambios en el índice de Google, todos comienzan a especular y buscar el origen de los grandes movimientos. Por el momento no esta muy claro que es lo que ha sucedido.

Algunos mencionan, que los subdominios ya no son considerados por el buscador como acontecía anteriormente.

El jefe del equipo anti-spam de Google, Matt Cutts, retorna de sus vacaciones
Aquí su nota. Esto sin duda nuevamente va avivar las discusiones en los foros y los weblogs sobre Google y su buscador.

Marissa Mayer en una interesante entrevista con el Business Week
Marissa Mayer de Google, ha dado una entrevista interesante a Business Week sobre Google. Marissa revela que no todos los servicios que Google esta lanzando se podrán convertir en servicios estrella y que no podrán superar a sus similares que ya están en carrera.

Mas infos al respecto en el Ojo Buscador .

Data centers de Google con un nuevo índice?

Ya hace algún tiempo que no hay muchas novedades sobre el buscador de Google. Parece que todavía existen muchos problemas que deben ser solucionados después de la introducción la nueva infraestructura Bigdaddy.

Uno de los problemas que posiblemente hayan sido resueltos son: La función site: ahora muestra nuevamente más páginas y las páginas con resultados suplementarios, parece que han desparecido.

También parece que los ingenieros del googleplex están experimentando con nuevos índices en algunos DCs, como se menciona en WMW.

La lista de DCs que tienen los nuevos resultados que son muy similares a los mencionados en esta nota ya hace algún tiempo atrás, son:

64.233.167.104
64.233.167.147
64.233.167.99
64.233.179.104
64.233.179.107
64.233.179.99
64.233.187.99
64.233.187.104
64.233.187.107

También otra buena posibilidad de analizar la posición de una página para palabras claves definidas en varios DCs es usando esta herramienta.

Seguramente en los próximos días tendremos mas informaciones si realmente estos nuevos índices continúan propagándose por los demás DCs.

Numero de palabras por búsqueda?

Una de las preguntas más importantes que se hacen los SEOs cuando se ponen a optimizar una página web es: Cual es el número optimo de palabras claves que usan los usuarios cuando realizan sus búsquedas?

Randfish discute en su blog un documento en formato PDF del Yahoo! Analyst Day 2006.

Según este informe, en numero de palabras por búsqueda esta aumentando continuamente: Mientras que en el año 1998 el promedio era de 1,2 palabras, y en el año 2004 2,5 palabras, este promedio ha subido en el año 2005 a 3,3 palabras por búsqueda, como se puede apreciar en el siguiente diagrama:


Palabras por busqueda

Estos resultados son muy interesantes para los SEOs y demuestra que los usuarios cada vez realizan búsquedas más complejas y más largas. Por este motivo ahora ya no solo es necesario de optimizar las páginas para una o dos palabras claves sino más bien se debe procurar optimizar cada página para una serie de frases relacionadas al tema de la web y usar las búsquedas del long tail.

Sobre la estabilidad del Google Ranking

Introducción
Después que de que hemos entrado en la era de Bigdaddy, muchas de las reglas y estrategias que han usado los SEO´s en los últimos años para posicionar sus webs han perdido su validez.

A pesar de que posiblemente esta nueva infraestructura todavía esta en la fase de estabilización, parece que Google ya esta comenzando a realizar algunos experimentos para analizar sus resultados y en caso de ser satisfactorios podrían ser introducidos en el algoritmo ‘oficial’ del buscador

Esta idea se origina en la observación de los diferentes data centers (DCs) de Google en las ultimas semanas. En la era pre Bigdaddy, los ingenieros de Google realizaban sus pruebas solamente en algunos DCs y luego, después haber logrado sus objetivos, propagaban esos datos a los restantes DCs.

En las ultimas semanas se ha podido apreciar algo diferente: Se han observado diferentes series o clases de índices repartidos por todos los DCs. Por este motivo las posiciones de las páginas web han estado variando mucho, hasta el punto de que los foreros en WMW, expertos en el análisis de los DCs, han quedado totalmente desconcertados, ya que no han encontrado ningún concepto o teoría clara sobre el comportamiento de los DCs.

Análisis
Ahora bien, cómo se puede analizar correctamente el ranking o posición de una página web, suponiendo que Google esta usando diferentes índices en sus data centers, como resultado de la aplicación de diversos grupos o clases de algoritmos?

Después de haber observado la posición de muchas páginas web de varios proyectos, o mejor dicho dominios, en los diversos data centers de Google durante estos últimos meses, he llegado a las siguientes conclusiones:

Páginas web que pertenecen a dominios bien establecidos en Google y que poseen algún tipo de autoridad, han mantenido su ranking o posición en casi todos o todos los data centers.

Mientras que páginas que por uno u otro motivo todavía son débiles, o que estaban afectadas por alguno de los filtros de Google (poca antigüedad, contenidos duplicados, efecto sandbox, etc.) han estado variando continuamente de ranking en los data centers.

Eso significa entonces que páginas fuertes son estables a las posibles variaciones de los diferentes algoritmos de Google, mientras que las páginas débiles, son muy susceptibles a las variaciones de los algoritmos aplicados en los data centers.

Esta observación me lleva a definir un nuevo concepto: Estabilidad del Ranking de Google, o en ingles Google Ranking Stability (GRS).

El GRS es entonces una métrica que define la fortaleza o estabilidad de una página web en relación a los diferentes algoritmos que se pueden aplicar para generar un índice.

Si podemos calcular el GRS de una página, entonces sabemos cuan resistente es a los cambios algoritmicos que Google pueda introducir.

La siguiente tarea es entonces, encontrar un método para poder calcular el GRS de una página. Para esto necesario desarrollar una nomenclatura formal y una metodología de cálculo.

Nomenclatura
Para poder crear una herramienta formal que pueda calcular el GRS es necesario realizar algunas definiciones:

– d1,…,dn sean los data centers de Google
– u sea la url de una página web
– kw sean las palabras claves con las que se realiza una búsqueda.

Entonces,

pi[u|kw] es la posición de la página u para las palabras claves kw en el data center i.

– num sea el numero máximo de posiciones que el buscador de Google nos permite observar. Este valor actualmente es 100.

Con esto podemos fácilmente definir la posición promedio de una página u para las palabras claves kw en los n data centers de Google de la siguiente manera:


P[u|kw] = SUMA(pi[u|kw], 1,n) / n

El Google Ranking Stability (GRS) de la página u para las palabras claves kw lo definimos de la siguiente manera:

Sea


D[u|kw] = (MAX{p1[u|kw],…, pn[u|kw]}\{ pi[u|kw]>num} – MIN {p1[u|kw],…, pn[u|kw]}\{ pi[u|kw]>num})

Entonces tenemos


GRS[u|kw] = ((num – D[u|kw])*100)/num

La anterior formula la podemos explicar de la siguiente manera:

El término MAX{p1[u|kw],…, pn[u|kw]}\{ pi[u|kw]>num}

es el máximo de todas las posiciones pi[u|kw] de la página u para la búsqueda kw, pero sin tener en cuenta las posiciones mayores a num.

Mientras que el término MIN{p1[u|kw],…, pn[u|kw]}\{ pi[u|kw]>num}

es el mínimo de todas las posiciones pi[u|kw] de la página u para la búsqueda kw, pero sin tener en cuenta las posiciones mayores a num.

En palabras sencillas, esta parte de la formula nos da el ruido de las posiciones de la página u para la búsqueda kw en cada uno de los data centers. Pero como estamos definiendo la estabilidad, restamos de num este valor, y obtenemos:

Cuanto más grande es el valor de GRS, entonces mas estable es la página u para la búsqueda kw.

La herramienta
Para poder comprobar los resultados del Google Ranking Stability (GRS) he desarrollado una pequeña herramienta que ahora es de uso publico y se encuentra aquí.

Para finalizar este artículo deseo presentar algunos casos con la mencionada herramienta.

Caso 1: Página con poca estabilidad

La siguiente página tiene una gran variación en las posiciones (desde la 4. a la 42.) para la búsqueda kw en los diferentes DCs. Por eso, solo tiene un GRS de 62%



Caso 2: Página con una estabilidad media

La diferencia de las posiciones de esta página para kw en todos los DCs es relativamente pequeña (entre 9 y 16). Por este motivo su GRS ya es del 93%, mucho mas alto que en el primer caso.



Caso 3: Página totalmente estable
En este ultimo caso, la posición de la página para la búsqueda kw es en todos los DCs la misma (posición 5). Esto significa que esta página es resistente a las variaciones de los algoritmos en los diferentes DCs.



Comentarios y opiniones sobre el tema son bienvenidos!

El dilema de los data centers de Google

Después de que comenzó la era Bigdaddy, es decir la introducción de una ‘nueva infraestructura’ en todos los data centers de Google, todavía no existe mucha claridad cuales serán las nuevas características de este nuevo índice.

Como ya lo había mencionado en anteriores notas, (aquí , y aquí) muchos sitios han perdido una gran cantidad de páginas que estaban en el índice ya hace mucho tiempo.

Otro de los fenómenos que actualmente se puede observar es que a diferencia de la era pre Bigdaddy, los data centers todavía tienen diferentes índices y no se igualan después de una nueva actualización como ya era costumbre.

Actualmente, se pueden observar data centers con 3 o 4 grupos diferentes de datos. Uno de estos grupos contienen un índice con los conocidos filtros del Sandbox debilitados (ver nota) y los otros son todavía difíciles de definir.

Yo estaba esperando este fin de semana, para ver una definición de cual de estos grupos se propaga finalmente. Pero todavía no ha sucedido nada.

Lo único que he podido obrservar es que el índice con los filtros del SandBox bajos esta comenzando a tomar la supremacía en los DCs.

Esperemos que esta semana todos los DCs se sincronicen, ya que esta situación pone siempre nerviosos a los webmasters, ya que no saben si bajarán o subirán de posicion. Además, en este tipo de momentos no es aconsejable hacer cambios en los proyectos.

Por ejemplo, para unas palabras claves en uno de mis proyectos, obtengo en 40 diferentes DCs los siguientes resultados:

Posición No. de data centers
4 13
11 2
52 15
59 10

Novedades sobre las perdidas de páginas en el buscador de Google

Finalmente, y después de unas semanas de silencio acerca del problema de la pérdida de paginas en el índice de Google que actualmente esta preocupando a muchos webmasters (ver nota), Matt a escrito en un comentario de su weblog lo siguiente:

maxD, last week when I checked there was a double-digit number of reports to the email address that GoogleGuy gave (bostonpubcon2006 [at] gmail.com with the subject line of “crawlpages”).

I asked someone to read through them in more detail and we looked at a few together. I feel comfortable saying that participation in Sitemaps is not causing this at all. One factor I saw was that several sites had a spam penalty and should consider doing a reinclusion request (I might do it through the webmaster console) but even that wasn’t a majority. There were a smattering of other reasons (one site appears to have changed its link structure to use more JavaScript), but I didn’t notice any definitive cause so far.

There will be cases where Bigdaddy has different crawl priorities, so that could partly account for things. But I was in a meeting on Wednesday with crawl/index folks, and I mentioned people giving us feedback about this. I pointed them to a file with domains that people had mentioned, and pointed them to the gmail account so that they could read the feedback in more detail.
So my (shorter) answer would be that if you’re in a potentially spammy area, you might consider doing a reinclusion request–that won’t hurt. In the mean time, I am asking someone to go through all the emails and check domains out. That person might be able to reply to all emails or just a sampling, but they are doing some replies, not only reading the feedback.

Interpretando estos comentarios, y asumiendo que Matt no esta ocultando algún problema con la nueva infraestructura, como por ejemplo la falta de espacio de almacenamiento, se puede deducir los siguiente:

1. La flojera del googlebot para visitar muchos sitios, se debería al cambio de prioridades del crawler en BigDaddy.

2. La disminución de las páginas que aparecen indexadas con la función site: se debería a los filtros de SPAM que aparentemente se están aplicando en el índice del buscador.

3. Este fenómeno que también esta afectando sitios sin SPAM parece ser un efecto secundario e involuntario de los nuevos algoritmos que Google esta aplicando.

Ahora, solo falta esperar que los ingenieros del Googleplex que están analizando los emails que ha recibido GoogleGuy ayuden a resolver el problema rápidamente.