Thursday, June 24, 2010

Creare file Robots.txt e la sua importanza

Se state pensando che avete sviluppato un sito Web davvero grande parola-ricco-unico-content completamente ottimizzato per i motori di ricerca e un sito per attrarre i visitatori - che va bene, ma tu sai manca qualcosa? Un file robots.txt. Hai includerla? Tra l'altro sai che cosa è l'importanza di un file robots.txt?

Il successo delle grandi aziende sta nel mantenere i loro dati riservati di un segreto, nascosto da tutti. Raccontano il mondo qualcosa e fare qualcosa. Ciò consente loro di eseguire il loro futuro corso d'azione in modo semplice e programmi cambiano a seconda della situazione. Lavoro di file robots.txt è lo stesso. Si può o non può permettere che un motore di ricerca per visitare alcune o tutte le pagine web. Naturalmente un visitatore umano è libero di visitare queste pagine. Stando così le cose, per i motori di ricerca il tuo sito web può essere diverso da ciò che un visitatore è vedere. Se pensate che una o alcune delle pagine / file non sono buoni abbastanza per essere visitato da un particolare motore di ricerca or motori si può fare. Anche se questo non è consigliato - il tuo sito web dovrebbe essere effettuato in modo tale che non devono sottrarsi alle motori di ricerca. Tuttavia la sua sempre meglio conoscere le basi della scrittura del file robots.txt. Essa vi aiuterà. Discuteremo più in basso - il file robots.txt è importante. Ripeto ancora una volta - non rendere le pagine si pensa dovrebbe essere nascosta dai motori di ricerca. Se un motore di ricerca credi di essere fino ad alcuni trucchi, può panelize vostro sito causando una no-rank - nel peggiore dei casi per sempre!

Ogni motore di ricerca ha un "robot" (un programma software) che fa il lavoro di visitare un sito web. Il loro scopo è quello di "conoscere" il sito, che cosa è interamente circa, raccogliere tutte le informazioni su di esso, ecc robot dei motori di ricerca raccogliere queste informazioni e riportarli alle loro banche dati per mostrare nei loro risultati di ricerca. Quindi, se il sito non c'è nel loro database non è mai compare nei risultati di ricerca.

Web robot sono a volte indicato come crawler web, o ragni. Pertanto, il processo di un robot che visitano il tuo sito web si chiama "spidering" o "Crawling". Quando qualcuno dice "i motori di ricerca hanno spidered mio sito web," ciò significa che i robot dei motori di ricerca hanno visitato il loro sito web. Questo robot è conosciuta con un nome e ha un indirizzo IP indipendente. Questo indirizzo IP è di nessuna importanza per noi, ma conoscendo i loro nomi saranno di aiuto poiché questo nome verrà utilizzato quando si crea un file robots.txt. Per questo il file si chiama "robots.txt". Dato che segue è la lista dei robot di alcuni dei motori di ricerca molto popolare:

Motore di ricerca - Robot
Alexa.com - ia_archiver
Altavista.com - Scooter (acquistato da Yahoo)
UK.Altavista.com - AltaVista-Intranet (acquistato da Yahoo)
Alltheweb.com - FAST-WebCrawler (acquistato da Yahoo)
Excite.com - ArchitextSpider
Euroseek.net - aracnoideo
Gendoor.com (motore di ricerca genealogica) - GenCrawler
Google.com - Googlebot (http://www.google.com/bot.html)
Hotbot.com (utilizza robot di Inktomi) - Slurp
Inktomi.com Slurp - (slurp@inktomi.com) (acquistato da Yahoo)
Infoseek.com - Ultraseek
Looksmart.com - MantraAgent
Lycos.com - Lycos_Spider_ (T-Rex)
Northernlight.com - Gulliver
Nationaldirectory.com - NationalDirectory-SuperSpider
UKSearcher.co.uk - Spider Motore di ricerca del Regno Unito

Scrivi robots.txt:

Impariamo a scrivere il comando robot. Si noti che ci sono due modi per scrivere il comando robot. Uno è quello di includere tutti i comandi in un file di testo chiamato "robots.txt" e un altro è scrivere il comando robot nel meta-tag.

Impareremo due modi di scrivere il comando robot.

Scrivi comando robot in meta-tag:

Ci sono 4 cose che si possono dire un robot dei motori di ricerca quando si chiede (visite) tua pagina:

1) Non indice di questa pagina - i motori di ricerca non indicizzare la pagina.
2) Non seguire qualsiasi link a questa pagina - i motori di ricerca non seguire i link incluso nella pagina, cioè non consente di indicizzare tutte le pagine che questa pagina di link a.
3) Se Indice di questa pagina - i motori di ricerca indicizzerà la pagina.
4) Non seguite i link - i motori di ricerca indicizzerà le pagine che questa pagina di link a.

Nota che "indice" è diverso "ragno". Un motore di ricerca ragni prima una pagina e quindi gli indici esso. L'indicizzazione è dare una certa importanza alla pagina sulla base del suo contenuto, l'informazione, meta tag, link popularity per quanto riguarda la ricerca di parole chiave. Tutto questo viene deciso in fase di esecuzione. Quando ti dico, non i motori di ricerca di indicizzare una pagina, significa che sanno che "certa pagina esiste, ma non li rango. Cioè, non una pagina-indice non sarà mai mostrate nella loro risultati di ricerca. Questo in ogni caso non significa una pagina no-index, non otterrà i visitatori, si potrebbe ottenere visitatori indirettamente da una pagina che collega ad esso. Sì, non ci sono visitatori direttamente dai motori di ricerca.

Si supponga di voler motori di ricerca per indicizzare e anche indice (segue) le sue pagine collegate quindi includere il seguente comando nel meta-tag:

meta name = "" content = robot "index, follow"

Si supponga di voler motori di ricerca per indicizzare una pagina, ma non seguire i suoi legami poi inserire il seguente comando nel meta-tag:

meta name = "robots" = contenuto "index, nofollow"

Supponiamo che non si desidera che i motori di ricerca di indicizzare una pagina, ma seguire i suoi legami quindi includere il seguente comando nel meta-tag:

meta name = "robots contenuto =" noindex, follow "

Supponiamo che non si desidera che i motori di ricerca sia di indice o seguire i link di una pagina particolare poi inserire il seguente comando nel meta-tag:

meta name = "robots contenuto =" noindex, nofollow "

Nota:
Google fa un "cache" di ogni file, ragni. E 'una piccola istantanea della pagina. Vuoi impedire a Google di farlo? Sono i seguenti meta-tag:

meta name = "robots" = contenuto "noindex, nofollow, noarchive"

Come ogni tag meta tag di cui sopra scritto dovrebbe essere messo nella sezione HEAD di una pagina HTML.

Creazione di file robots.txt:

Un file robots.txt è un file indipendente e dovrebbe essere scritto in un editor di testo come Blocco note. Non utilizzare MS-Word o qualsiasi altro editor di testo per creare il file robots.txt. La linea di fondo è questo file dovrebbe avere estensione ". Txt" altrimenti sarà inutile.

Cominciamo. Aprire il Blocco note (si parla gratis con Microsoft Windows) e salvare il file con il nome "robots.txt". Assicurarsi che l'estensione sia. Txt.

A proposito, hai fatto notare non abbiamo usato il nome del robot nel meta-tag! Che cosa indica? Semplice - utilizzando meta è diretta tutti i motori di ricerca per fare qualcosa o non fare qualcosa in una pagina. Non hai il controllo su uno qualsiasi dei motori di ricerca. La soluzione è robots.txt.

Può sempre succedere che non si desidera un particolare motore di ricerca per indicizzare una pagina per determinati motivi. In questo caso utilizzando un file robots.txt sarà di aiuto. Anche se non ve lo raccomando una cosa simile. I motori di ricerca si ottiene il traffico, perché li odio. Impedire loro di fare il loro lavoro e loro ti odiano. Ribadisco nuovamente che mantenere le vostre pagine smart per i motori di ricerca e dare loro il benvenuto. Bene, allora perché prendersi la briga di imparare robots.txt? Perché dovreste includere un file robots.txt a tutti?

Supponiamo che il vostro è un sito dinamico database contenente le informazioni dei vostri abbonati alla newsletter, i clienti, il loro indirizzo, numeri di telefono, ecc Tutte queste informazioni riservate, è conservato in una cartella separata denominata "admin". (Si raccomanda di tenere tali informazioni in una directory separata. Trattamento dei dati sarà più facile per voi e così sarà facile tenere i motori di ricerca via. Saremo solo know-how.) Sono certo che lei non vorrebbe mai di persone non autorizzate a visitare l'area lascia soli motori di ricerca. Non aiuta i motori di ricerca sia in quanto non hanno nulla a che fare con i dati o file lì. Ecco il ruolo di un file robots.txt. Scrivere quanto segue nel file robots.txt: (Ignora la riga orizzontale - sono incluse solo per separare i comandi dal resto del testo.)

---------------------------

User-agent: *
Disallow: / admin /

---------------------------

Ciò non consente la spider per indicizzare qualsiasi cosa nella directory admin includendo anche le sotto-directory se del caso.

L'asterisco (*) indica tutti i motori di ricerca. Come si può fermare un motore di ricerca dal spidering particolare file o directory?

Si supponga di voler smettere di Excite da spidering questa directory:

-----------------------------

User-agent: ArchitextSpider
Disallow: / admin /

------------------------------

Si supponga di voler smettere di Excite e Google di spidering questa directory:

------------------------------

User-agent: ArchitextSpider
Disallow: / admin /

User-agent: Googlebot
Disallow: / admin /

------------------------------

I file non sono diversi. Supponiamo che si desidera che un file datafile.html non essere spidered da Excite:

------------------------------

User-Agent: ArchitextSpider
Disallow: / datafile.html

-------------------------------

Allo stesso modo, non si vuole che sia troppo spidered da Google:

-------------------------------

User-agent: ArchitextSpider
Disallow: / datafile.html

User-agent: Googlebot
Disallow: / datafile.html

-------------------------------

Si supponga di voler due file datafile1.html e datafile2.html non essere spidered da Excite:

-------------------------------

User-Agent: ArchitextSpider
Disallow: / datafile1.html
Disallow: / datafile2.html

-------------------------------

Potete indovinare che cosa significa il seguente?

-------------------------------

User-agent: ArchitextSpider
Disallow: / datafile1.html
Disallow: / datafile2.html

User-agent: Googlebot
Disallow: / datafile1.html

--------------------------------

Excite non ragno datafile1.html e datafile2.html, ma Google non solo datafile1.html ragno. Sarà ragno datafile2.html e il resto dei file nella directory.

Immaginate di avere un file conservati in una sotto-cartella che non si vorrebbe essere spidered. Cosa fai? Supponiamo il sotto-directory è "ufficiale" e il file è "confidential.html".

--------------------------------

User-agent: *
Disallow: / funzionario / confidential.html

--------------------------------

Mi auguro che basta. Un po 'di pratica è ovviamente necessaria. Se la sintassi del file robots.txt non è scritta correttamente, i motori di ricerca ignorerà il comando specifico. Prima di caricare il file robots.txt doppio controllo per eventuali errori. È necessario caricare file robots.txt nella directory principale del server. I motori di ricerca per cercare file robots.txt solo nella directory principale altrimenti totalmente ignorato. Molto directory principale è la directory in cui è custodita la pagina indice. In questo caso mantenere il file robots.txt nella stessa directory del file di indice.

Nota: Si dovrebbe essere in grado di visualizzare file robots.txt se si digita quanto segue nella barra degli indirizzi del browser Internet.

http://www.your-domain.com/robots.txt

(Dove il-tuo-dominio è il nome del dominio del vostro sito web. Se la tua non è una. Site com, sostituire. Com con l'estensione rispettivi tuo sito web. Per eg.net. Noi. Org, ecc)

Ti starai chiedendo se utilizzare metatag o robots.txt o quale di questi è più efficace!

Un robots.txt correttamente scritto è più efficace della meta-tag. Tutti i motori di ricerca il sostegno robots.txt, ma non tutti i motori di ricerca il sostegno robot comando scritto nel meta-tag. Vi consiglio di usare entrambi in modo da coprire il tuo sito in entrambi gli scenari.

Un'ultima cosa - potete guardare nel registro di server web per vedere cosa i robot dei motori di ricerca hanno visitato. Partono tutti firme che può essere individuata. Queste firme non sono altro che il nome del loro robot. Per esempio, se Google ha spidered tuo sito lascerà un file di registro denominato Googlebot. Ecco come sapere quale motore di ricerca ha spidered tue pagine e quando!

--------------------------------
Questo articolo può essere ristampato e / o pubblicato online o offline gratuitamente, a condizione che il sito web, http://www.searchengineoptimizationpromotion.com, è pubblicato insieme ad essa.
--------------------------------

No comments:

Post a Comment