Definire Ragni sul computer

August 23

Definire Ragni sul computer


Anche se i ragni Web sono semplicemente degli script in esecuzione su un computer collegato a Internet, il loro nome ha una connotazione sinistro a causa di suo omonimo otto zampe. Di conseguenza, le persone spesso hanno un certo numero di idee sbagliate circa ragni e il modo in cui essi operano. Nella maggior parte dei casi, i ragni sono vantaggiosi per il tuo sito web, aiutando le persone a trovare e le informazioni che stanno cercando. Alcuni ragni sono parassiti tuttavia, e rubare il contenuto. E 'possibile bloccare questi ragni di accedere al sito.

Che cosa sono i ragni?

In termini di calcolo, i ragni sono gli script che strisciano Internet e recuperare le informazioni automatizzate. Ragni iniziano con una serie di indirizzi di semi da visitare, e inviare le richieste Web standard per scaricare le pagine da quegli indirizzi. Il ragno analizza la pagina, ed estrae le informazioni di destinazione. Nuovi indirizzi trovati dai link sulle pagine scaricate vengono aggiunti al suo database, e nel tempo, quelle pagine vengono scansionati e il processo continua. Questo permette al ragno per navigare automaticamente il giro del Web, utilizzando le informazioni è programmato per raccogliere per espandere la sua base di dati.

Come faccio ragni funzionano?

I ragni in genere recuperano grandi quantità di informazioni, e attraversa Internet, in modo al fine di evitare l'esaurimento delle risorse in termini di larghezza di banda e lo spazio di archiviazione, il ragno utilizza una serie di regole a strisciare in modo intelligente. L'autore dei programmi di script queste regole nello script, per determinare quanti livelli di profondità in un sito web il ragno viaggerà, e quanto spesso il ragno rivisita il sito per verificare la presenza di contenuti aggiornati. spider automatici possono generare molte richieste sul web più di un umano può in un breve periodo, e questo può influire negativamente una performance siti web. L'autore dello script di solito evita questo scenario da richieste impressionanti, in modo che il proprietario del sito non ha alcun motivo per bloccare il ragno.

Perché ragni vengono utilizzati?

I ragni hanno molti scopi, ma sono principalmente raccoglitori di informazioni. Tutti i motori di ricerca si basano su ragni per eseguire la scansione del Web al fine di creare un indice di ricerca, e senza ragni, siti come Google o Yahoo avrebbe fornito una serie di risultati molto più piccolo. siti di confronto prezzi usare gli spider per trovare venditori che vendono prodotti selezionati, la scansione dei siti web su base regolare per mostrare gli ultimi prezzi. Anche se i ragni hanno molti usi legittimi e benefiche, sono utilizzati anche per scopi dannosi, come ad esempio i siti web di scansione alla ricerca di indirizzi e-mail per vendere a e-mail marketing. Altri ragni possono strisciare siti web alla ricerca di script sfruttabili e software con vulnerabilità note, al fine di lanciare un attacco e rubare dati privati.

Blocco ragni

È possibile bloccare gli spider dei motori di ricerca di eseguire la scansione il tuo sito web con la creazione di un file robots.txt. Si tratta di un file di testo memorizzato nella root del vostro sito web, che consente di dare istruzioni alla crawler conformi a controllare il loro comportamento quando visitano il tuo sito. È possibile indirizzare singoli ragni, o utilizzare le istruzioni generali per indirizzare tutti i ragni. Uno dei problemi con questo approccio è che il rispetto è volontaria, e solo i bot legittimi obbediscono alle regole. ragni maligni semplicemente ignorare le regole, quindi è necessario un metodo alternativo per bloccarli. Come i ragni sono semplicemente degli script, di solito corrono da una base statica, così le richieste provengono dallo stesso indirizzo IP. Se si trova un ragno visita il tuo sito utilizzando i siti di file di log, è possibile visualizzare il proprio indirizzo IP, che è quindi possibile bloccare per fermare il ragno di accedere al sito.