Buscar este blog
viernes, 12 de noviembre de 2004
ROBOTS.TXT (Spider) Cont
Otro link importante
List of User-Agents (Spiders, Robots, Crawler, Browser)
+ info
lunes, 23 de agosto de 2004
ROBOTS.TXT (Spider)
Es decir www.misitio.com/robots.txt
Con este archivo podemos prohibir el paso de los robots (buscadores) hacia algunas carpetas o archivos.
Es muy simple:
User-agent: "nombre del robot"
Disallow: "nombre de la carpeta o nombre del archivo"
Por ejemplo:
Para el robot de google; vamos a prohibir el acceso a la carpeta de "imagenes"; su nombre es "imagenes"
# ---Prohibir a googlebot ver mis imagenes
User-agent: googlebot?
Disallow: /imagenes/
# ---
Prohibir el acceso a todos los robots
# --- Todos
User-agent: *
Disallow: /imagenes/
# ---
Prohibir el acceso a un formato de archivo por ejemplo ?swf? (flash)
# --- Prohibir a swf
User-agent: *
Disallow: *.swf
# ---
Para prohibir todo acceso
# --- Prohibir
Disallow: /
# ---
Para saber el nombre de cada robot.
+ Info
Verificar validacion del codigo.
+info
jueves, 12 de agosto de 2004
Metodologia empleada por Alexa para calcular el trafico web
Los rankings de Alexa.com estan basados en las visitas realizadas por los internautas que tienen instalada la barra de Alexa (mas de 10 millones en todo el mundo) durante un periodo de tres meses. La posicion que ocupa un sitio en el ranking mundial esta basada en una combinacion del alcance y paginas vistas obtenidas.
El alcance es determinado por el numero de usuarios unicos (direcciones IP) que visitan un sitio en un dia dado.
Las paginas vistas se mide como el numero total de peticiones de URLs diferentes en un sitio. Ojo, las peticiones multiples de una misma URL (por ejemplo, la pagina de inicio o el indice del foro de Verema) durante un mismo dia por un mismo usuario solo se cuentan una vez.
El sitio web con la combinacion mas alta de usuarios y paginas vistas es el n1 (actualmente es Yahoo.com). Cuanto mas alto es el numero de Alexa menor trafico recibe el sitio.
Los rankings de Alexa solo funcionan para los dominios web de nivel superior (tipo www.dominio.com). Por ejemplo, elmundovino.com (una seccion del periodico español El Mundo) es considerado por Alexa como parte del dominio del nivel superior (elmundo.es) y por esta razon no ofrece un ranking separado de esa area del periodico.
Los datos de trafico estan basados en el conjunto de usuarios que tienen instalada la barra de Alexa, que pueden no ser una muestra representativa de la poblacion global de internautas. Los sesgos reconocidos por Alexa en sus rankings son los siguientes:
La barra de Alexa solo funciona con el navegador Internet Explorer y el sistema operativo de Windows.
La adopcion del software de Alexa en diversas partes del mundo puede variar significativamente debido a la lengua utilizada (toda la informacion sobre Alexa esta solo en ingles) y otros factores culturales, como la tasa de adopcion y utilizacion frecuente de Internet.
La barra de Alexa se desactiva en las paginas seguras (https:) de los sitios.
Los datos de Alexa se calculan sobre una gran muestra de varios millones de usuarios que utilizan su barra de herramientas. Sin embargo, esta muestra no es lo suficientemente grande como para poder determinar con suficiente precision los rankings de los sitios con menos de 1.000 visitantes mensuales. En general, los sitios con una posicion por encima del puesto 100.000 no son suficientemente fiables porque la cantidad de datos obtenida no es estadisticamente significativa.
Por el contrario, cuanto mas trafico recibe un sitio (y mas se acerca a la posicion numero 1), mas fiable es el ranking de trafico que ofrece Alexa.
martes, 10 de agosto de 2004
Google dance | Definicion
Aproximadame una vez al mes Google actualiza su base de datos. Este periodo de actualizacion suele durar 4 - 5 dias.
Durante este espacio de tiempo los resultados en Google varian ya que muestra resultados de diferentes datacenters, y se puede observar como en www.google.com, www2.google.com y www3.google.com los resultados varian.
El Google dance empieza teoricamente cuando los backlinks (enlaces que recibimos a nuestra pagina web desde otras paginas.) hacia yahoo son diferentes en estas 3 urls.
Una vez terminado el Google dance, la pagina principal de Google, ya muestra los resultados
+ info
http://www.forobuscadores.com/google-dance.php
http://googleblog.webcindario.com/index.php?catid=5
Google Dance Tool
http://www.seochat.com/googledance/
Cuanto PageRank necesitamos para incrementar la barra de PageRank de la barra de Google?
buscando informacion sobre google encontre este articulo.
Pequeño extracto
De acuerdo con la ecuacion y con los creadores de Google, la mayoria de paginas en la red tiene una media de PageRank 1.0 por pagina. Por esa razon, el total de Pagerank en cada web es igual al numero de paginas en la web * 1, que equivale a mucho reparto de PageRank por la red. La barra de Google va desde 1 a 10. (A veces muestran 0, pero no se cree que esa cifra sea resultado de un calculo de PageRank). Lo que hace Google es dividir el intervalo del PageRank real de la red en 10 partes, cada parte es representada por un valor tal como se muestra en la barra. Asi que los valores de la barrar solo muestran parte del intervalo total del PageRank de esa pagina, y no el PageRank real. Los numeros en la barra de Google son solo etiquetas. Tanto si el intervalo global es dividido entre 10 como si no, es tema de debate. Google no dice nada al respecto. Pero a causa de eso es mucho mas dificil mover la barra al final que al principio, mucha gente (incluyendome) cree que las divisiones estan basadas en una escala logaritmica, o algo muy similar, en vez de divisiones equivalentes o una escala lineal. Asumamos que es logaritmica, de base 10, y cuesta 10 paginas propiamente enlazadas para mover la barra hasta el punto 1. Costaria 100 nuevas paginas moverla hacia otro punto, 1000 nuevas paginas moverla una vez mas, 10000 en la proxima, y asi sucesivamente. Es por esa razon que cuesta tan poco mover la barra cuando esta en niveles inferiores que cuando esta en niveles superiores. En realidad, no es probable que la base sea 10. Mucha gente piensa que es alrededor de 5 o 6, e incluso menos. Aun asi, sigue aumentando la dificultad de incrementar la barra a medida de que avanzamos posiciones. Note que a la par que el numero de paginas en la red incrementa, incrementa el total de PageRank en la red, y si incrementa el PageRank total, las posiciones de las divisiones de la escala deben cambiar. Como resultado, muchas paginas perderan un punto en la barra de Google sin razin aparente. Si el PageRank real de la pagina estaba justo por encima de la division en la escala, la adicion de nuevas paginas en la red causara que la division se mueva hacia arriba haciendo que la pagina quede justo debajo de la division. El indice de Google crece continuamente y reevalaan cada pagina mas o menos una vez al mes. Esto es conocido como "Google dance". Cuando la danza se acaba, algunas paginas habran perdido un punto en la barra. Un numero de nuevas paginas deberia ser suficiente para volver a obtener el puesto anterior despues del siguiente "Google dance". El valor de la barra es un buen indicador del PageRank de una pagina pero solo indica que una pagina esta en un cierto intervalo de la escala global. Una pagina con PR5 puede estar justo por encima de la division de PR5 y otra pagina con PR5 puede estar justo debajo de la division de PR6. Practicamente las separa una division entera.(un punto en la barra)