Suscribe-te a Nuestro Boletin Gratuito y Te REVELARÉ TODOS LOS SECRETOS de los MAGNATES DE INTERNET, que herramientas usan en su arsenal y como tu también puedes llegar a ser uno y además GÁNATE ESTOS IMPORTANTES EBOOKS: Mercadotecnia en Internet, El diccionario de E-marketing y Un regalo Sorpresa
- Nombre - - Email -

martes, 6 de octubre de 2009

¿Cómo funcionan los grandes motores de búsqueda?

http://www.super-mega-pack.turbo-clic.com/index.html


1. Buscadores, directorios, arañas y otros bichos
Mucha gente piensa que Google y Yahoo! son esencialmente lo mismo... y
se equivocan. El primero es un buscador ("search engine" en inglés) y el
segundo un directorio.
En Yahoo! un grupo de personas llamados "surfers" recorren la web
seleccionando sitios, comentándolos y clasificándolos en una base de datos
según unos criterios más o menos homogéneos.

Efectivamente, luego existe un motor de búsqueda que busca en ESA base de
datos. Una base de datos hecha por humanos, más pequeña por tanto que la
de cualquier gran buscador, y que está formada por los datos introducidos por
esos humanos (es decir, incluye valoraciones como "categoría" o "país")
En Google en cambio un robot (llamado Googlebot) rellena una base de datos
primaria con el código de las páginas que visita. Un motor de búsqueda

consultará en esa base cuando nosotros le preguntemos y dará resultados
atendiendo a un complicado algoritmo que intentaremos comprender en
siguientes páginas. La función de ese algoritmo es conseguir emular de una
forma objetiva lo que los humanos hacemos de un modo instintivo: clasificar
una página por temas, origen, etc. y listarlas jerárquicamente de acuerdo con
su mayor o menor relación con el término buscado por el usuario.

El 50% del trabajo de posicionamiento se hace sobre el código de la página,
preparándolo todo para que el motor de búsqueda nos destaque entre todas las
páginas almacenadas en su base de datos.
El otro 50% del trabajo es una cierta forma de "marketing de red" cuyo objetivo
es que el bot nos visite con cierta frecuencia y reporte en la base de datos lo
importante que es nuestra página para otras muchas (incluidas otras de
nuestro sitio) que la enlazan.

Repasemos un poco los conceptos:

Directorio: sitio web que gestiona una base de datos confeccionada por
humanos. Esta base de datos almacena y clasifica en categorías URLs junto
con sus comentarios

Buscador: sitio web que gestiona una base de datos confeccionada por
robots. Esta base de datos almacena directamente el código de las páginas
visitadas por los bots o parte de él.
Motor de búsqueda: programa que selecciona y jerarquiza resultados entre
las entradas de una base de datos en función de unos términos y criterios de
búsqueda.

Robot (cariñosamente bot): es un programa que navega la web yendo desde
cada página a todas las que esta da enlace y enviando e incorporando el
código o partes de él a una base de datos de referencia. También se les
conoce como "crawlers", spiders o arañas.


Cómo lee un buscador un sitio web
Una vez que un robot entra en una página se "lanza" sobre el código
buscando identificar una serie de zonas: la cabecera, el cuerpo... y dentro
de ellas las etiquetas clave.

Sin embargo, esta "lectura" del código no tiene porque ser lineal. Google por
ejemplo posterga el contenido de las tablas. En la clásica página en la que los
contenidos aparecen enmarcados por un par de tablas anidadas, fuera de las
cuales a penas queda la dirección de la empresa o el copywrite, lo primero que
leería sería precisamente esto que aparece fuera.
¿Es eso realmente importante? Es cuando menos relevante. Como veremos
una de las variables a tener en cuenta es la posición del término de búsqueda
dentro del cuerpo de la página.

La "sensación" del robot a la hora de leer nuestra página será muy parecida a
la que tengamos nosotros al leer la misma página desde un ordenador de

bolsillo (ODB o PDA en inglés). Es una experiencia recomendable para
programadores y diseñadores web: al no tener espacio para mostrar todo el
ancho de página, rompe el contenido mostrando columna a columna.
Irremediablemente, lo primero que vemos de una web es un larguísimo e inútil
menú y no la información que buscamos. El robot en cambio lee fila a fila, pero
al anidar tablas en celdas de otras tablas mayores, hacemos que el orden de
lectura del buscador sea diferente del que intuitivamente pensamos al ver la
página en el navegador.

El orden es algo importante. Algunos robots incluso, buscan las cosas en un
determinado orden y sólo en él. De modo que si por ejemplo, la etiqueta

datos el título de la web...


El archivo robots.txt
Muchas veces el problema no es sólo conseguir que nuestras páginas
aparezcan indexadas en buscadores, sino que algunas de ellas no lo sean.
Para ello existe un protocolo alrededor del archivo robots.txt, que se coloca en
la carpeta raiz de nuestro sitio web.
El archivo se edita con cualquier programa de bloc de notas como el Notetab y
se compone de las siguientes líneas:

User-agent:
Disallow:
Tras "User-agent:" hemos de colocar el código del robot al que queramos
prohibir la lectura de determinados documentos o directorios. El de Google por
ejemplo es "googlebot" y el de Altavista "Scooter". Si queremos que la
prohibición se haga extensiva a cualquier robot deberemos poner un asterisco.


Existe un listado completo de robots con sus especificaciones en
http://www.robotstxt.org/wc/active/all.txt
Tras "Disallow" debemos especificar los directorios o documentos que
queremos ocultar a la curiosa mirada de los robots seguidos del símbolo "/"
Así si queremos que ningún robot husmee en nuestro dominio el archivo
debería configurarse como:
User-agent: *
Disallow: /
Por el contrario, para invitarles a un acceso completo:
User-agent: *
Disallow:

lo que sería equivalente a crear robots.txt como archivo en blanco
Si quisiéramos excluirles de los directorios "secreto" y "confidencial"
User-agent: *
Disallow: /secreto/
Disallow: /confidencial/

Si queremos vetar a un robot en concreto (Google en este caso):
User-agent: googlebot
Disallow: /
O por el contrario, invitar exclusivamente a uno (Web Crawler en este caso):
User-agent: WebCrawler
Disallow:


Finalmente, si no quisiéramos que entrasen o indexaran los archivos PDF
User-agent: *
Disallow: /*.pdf/
Durante un tiempo pareció que se impondría la metatag "robots" para cumplir
las funciones del protocolo de exclusión. Sin embargo, hoy casi ningún robot
las acepta mientras que el archivo robots.txt está completamente establecido y
aceptado.

En cualquier caso, aquí van unas directrices generales sobre su sintaxis:
La metatag de robots contiene un par de instrucciones separadas por comas.
Estas instrucciones son "index", que invita al robot a analizar la página
("noindex" si queremos prohibírselo) y "follow" que le invita a seguir los enlaces
que encuentre en ella (o "nofollow" que se lo prohibe).


Los valores ALL y NONE pueden usarse para dar todos los permisos o
denegarlos de ese modo sería
equivalente a y por el contrario
name="robots" content="noindex,nofollow"> produciría los mismos efectos que



Elementos que caracterizan una página desde el punto de vista de un
robot
Uno de los aspectos más importantes a tener en cuenta a la hora de
posicionar un sitio web es conocer los criterios que utiliza el Robot del
motor de búsqueda en relación con las diferentes partes del documento HTML.
A continuación vamos a definir la estructura típica de un documento HTML y
seguidamente veremos cómo ésta puede afectar a su posicionamiento.

Esta es la típica estructura de un documento Html:







: :
: :
: :



INFORMACIÓN DE CABECERA
El primer elemento de un documento es la etiqueta , es decir, la
cabecera del documento. En esta etiqueta se encuentra toda la información
que va a describir las características del documento: título, descripción,
palabras clave, Copyright, autor... Estas son algunas de las etiquetas más
importantes de las recogidas dentro del encabezamiento:
Área del título


deben incluir en éste las palabras clave por las que queremos que nuestro sitio
sea encontrado. La extensión del título no debe superar los 75 caracteres.
Área de metainformación


Es la encuadrada dentro de las etiquetas . Esta es una etiqueta
genérica de información adicional, tuvo su época dorada cuando Altavista
lideraba el mundo de los buscadores. Muy pocos robots la siguen leyendo a
pesar de la publicidad de los "posicionadores" españoles. Su sintaxis es



Los principales atributos de cara a Scooter (el robot de Altavista) son:
DESCRIPTION: Es la descripción de lo contenido en el documento. En ella se
ha de reflejar en pocas frases, la síntesis de todo el documento, toda la
información.



KEYWORDS: Son las palabras clave. Facilitan al buscador información del
documento, indicándole las palabras más importantes por las que quiere ser
encontrado en un buscador.
Este es un ejemplo de una etiqueta "keywords" de la página
www.guiadeenfermeria.com




EL CUERPO DE LA PÁGINA
La otra parte del documento queda encuadrada en lo que se denomina el
cuerpo de la página (todo lo que está entre y ). Dentro de
esta subestructura aparecerán todos los elementos visibles por el usuario
(fotos, texto, animaciones...).


AREAS ESPECÍFICAS DENTRO DEL CUERPO DE LA PÁGINA

Área de cabecera
El texto del documento, que como hemos dicho va incluido en el "body", puede
jerarquizarse (aunque la mayoría de diseñadores lo consideren "anticuado", los
robots no). La manera óptima de especificar dicha jerarquía es mediante las
etiquetas


,

,

,

,

y

. Al conjunto de texto incluido
dentro de estas etiquetas les llamaremos "Área de Cabeceras" (del inglés
"header").


Texto alternativo
Es el texto que se asocia a la imagen mediante el atributo ALT de la etiqueta
Es una de las áreas más sensibles y menos cuidadas por los
diseñadores que no siguen los estándares de usabilidad.


Texto hiperenlazado

Es el conjunto de texto de la página que aparece entre etiquetas
href="URL"> y


Área de URLs
Conjunto de URLs mencionadas en el código de la página que aparecen
referidas en el atributo HREF


Área de comentarios
Aún existen un par de buscadores que analizan el código de los comentarios
que -de modo invisible para los usuarios- los programadores colocan para otros
programadores dentro del código.
La etiqueta de comentarios sigue el siguiente formato:


















No hay comentarios:

Mega Robot Forex

SEO Marketing Tools