Excluir una página web o sitio de los motores de búsqueda Uso de un archivo de texto Robots
Puede utilizar un archivo de texto robots para bloquear una araña motor de búsqueda de rastreo de su sitio Web o una parte de su sitio. Por ejemplo, usted puede tener una versión en desarrollo de su sitio Web en el que trabaja en los cambios y adiciones a probarlos antes de que se conviertan en parte de su sitio Web en vivo. Usted no quiere que los motores de búsqueda para indexar esta copia "en curso" de su sitio Web, ya que causaría un conflicto duplicado-contenido con tu sitio Web real. También no le gustaría a los usuarios encontrar sus páginas en curso. Así que hay que bloquear los motores de búsqueda de ver esas páginas.
El trabajo del archivo de texto robots es dar las instrucciones de los motores de búsqueda sobre qué no a la araña dentro de su sitio Web. Este es un archivo de texto simple que puede crear usando un programa como el Bloc de notas y guarde el archivo robots.txt nombre de archivo. Coloque el archivo en la raíz de su sitio Web (como www. Yourdomain .com / robots.txt), que es donde las arañas esperan encontrarlo. De hecho, cada vez que las arañas de los motores de búsqueda a su sitio, lo primero que buscan es su archivo de texto robots. Es por eso que siempre debe tener un archivo de texto robots en su sitio, incluso si es en blanco. Usted no quiere que la primera impresión de su sitio de las arañas para ser un 404 error (el error que aparece cuando un archivo no puede ser localizado).
Con un archivo de texto robots, puede excluir selectivamente determinadas páginas, directorios o todo el sitio. Tienes que escribir el código HTML tal cual, o las arañas lo ignora. La sintaxis del comando es necesario utilizar viene del Protocolo de Exclusión de Robots (REP), que es un protocolo estándar para todos los sitios Web. Y es muy exacta; sólo los comandos específicos están permitidos, y tienen que estar escritos correctamente con la colocación específica, las letras mayúsculas / minúsculas, puntuacion, y el espaciamiento. Este archivo es un lugar donde usted no quiere que su Webmaster ser creativo.
Un archivo de texto robots muy simple podría tener este aspecto:
User-agent: *
Disallow: / personal /
Este archivo de texto robots dice todos los robots de los motores de búsqueda que son bienvenidos a gatear en cualquier lugar en su sitio web a excepción del directorio llamado / / personal.
Antes de escribir una línea de comandos (como Disallow: / personal /), primero hay que identificar qué robot (s) que está abordando. En este caso, la línea User-agent: * Las direcciones de todos los robots, ya que utiliza un asterisco, que se conoce como el carácter comodín porque representa cualquier carácter. Si quieres dar instrucciones diferentes para diferentes motores de búsqueda, ya que muchos sitios hacen, escribir líneas de agente de usuario separados seguido de sus líneas de comandos específicos. En cada User-agent: línea, debería reemplazar el carácter de asterisco (*) con el nombre de un robot específico:
User-agent: Googlebot podría llamar la atención de Google.
User-agent: Slurp abordaría Yahoo !.
User-agent: MSNBot abordaría Microsoft Live Search.
Tenga en cuenta que si el archivo de texto a sus robots tiene User-agent: * instrucciones, así como otra User-agent: especificando la línea un robot específico, el robot específico sigue las órdenes que de forma individual en lugar de las instrucciones más generales diste.
Usted puede escribir tan sólo unos pocos comandos diferentes en un archivo robots.txt:
-
. Excluyendo todo el sitio Para excluir el robot de todo el servidor, utilice el comando:
Disallow: /Este comando realidad elimina todas las páginas web de su sitio desde el índice de búsqueda, así que ten cuidado de no hacer esto a menos que es lo que realmente quieres.
-
La exclusión de un directorio (Una palabra de precaución - por lo general, quiere ser mucho más selectivo que excluir un directorio completo.) Para excluir un directorio (incluyendo todo su contenido y subdirectorios), lo puso dentro de barras.:
Disallow: / personal / - Excluyendo una página. Usted puede escribir un comando de excluir sólo una página en particular. Sólo se utiliza una barra al principio y debe incluir la extensión de archivo al final. He aquí un ejemplo:
Disallow: /private-file.htm
- . Dirigir las arañas para el mapa del sitio Además de Disallow :, otro comando útil para sus esfuerzos de SEO especifica donde el robot es capaz de encontrar su mapa del sitio - la página que contiene enlaces a través de su organización de la obra, como una tabla de contenido:
Mapa del sitio: http://www.yourdomain.com/sitemap.xml
Cabe señalar que, además de los comandos enumerados anteriormente, Google reconoce Permita también. Esto es aplicable a sólo Google y puede confundir a otros motores, por lo que debe evitar el uso de la misma.
Siempre debe incluir al final de su texto robots presentar una Sitemap: línea de comandos. Esto asegura que los robots a encontrar el mapa del sitio, que les ayuda a navegar con más detalle a través de su sitio para que más de su sitio se indexe.
Algunas notas sobre la sintaxis robots archivo de texto:
- Los comandos distinguen entre mayúsculas y minúsculas, por lo que necesita un D de capital en Inhabilitar.
- Siempre debe haber un espacio después de los dos puntos después del comando.
- Para excluir un directorio completo, poner una barra inclinada después y antes del nombre del directorio.
- Si está ejecutando en una máquina UNIX, todo mayúsculas y minúsculas.
- Todos los archivos que no estén excluidas específicamente están disponibles para rastreo y la indexación.
Para ver una lista completa de los comandos, nombres de robot, y las instrucciones sobre cómo escribir robots archivos de texto, vaya a las páginas Web del robot.
Como medida de seguridad adicional, que sea parte de su mantenimiento del sitio semanalmente para revisar su archivo de texto robots. Es un poderoso ejemplo de encendido / apagado para los esfuerzos de SEO de su sitio que merece un vistazo regular para asegurarse de que sigue siendo "on" y funciona correctamente.
Artículos relacionados
- Excluir a las páginas Web de los motores de búsqueda Uso de Meta Robots Etiquetas
- Cómo lidiar con texto oculto o enlaces en una página Web
- Cómo configurar una página Web HTML en el Bloc de notas
- ¿Cómo puedo comprobar la fiabilidad de una página web?
- Cómo abrir una página web en tu iPhone
- ¿Cómo se crea una página web?
- Impresión de una página Web
- Una página Web de ejemplo en HTML
- ¿Qué es una página web exclusiva para miembros?