La definizione di un parser HTML

November 20

La definizione di un parser HTML


La pagina web che state leggendo è un prodotto di HTML, o Hypertext Markup Language. Si tratta di una raccolta organizzata di testo, con comandi di formattazione, chiamati tag, che circonda il testo in chiaro si legge sullo schermo. Il programma utilizzato per la navigazione web, come ad esempio Internet Explorer, legge i dati pagina web, analizza i tag e visualizza il testo formattato finito. Oltre ai browser web che la gente usa, programmi parser HTML automatico la scansione del web per i dati.

HTML formattazione

HTML è un linguaggio di programmazione specializzato progettato per visualizzare il testo formattato in una pagina. Si compone di tag di formattazione quel luogo e visualizzare il testo come normale, grassetto, in colori e in altri modi diversi. In un file HTML, parentesi angolari circondano sempre un tag, rendendo i tag facile da trovare. Ad esempio, il documento HTML inizia con un tag "<html>" e termina con un tag "</ html>". Tra questi tag sono altri tag che descrivono il layout della pagina. Il testo effettivo della pagina si trova all'interno del più profondo set di tag. Un parser HTML è programmato per "capire" questi tag in modo che possa visualizzare una pagina web o ricavare informazioni da esso.

parsing del codice HTML

Un parser HTML richiede una pagina Web da un server Web, proprio come si digita indirizzi Web nella barra degli indirizzi del browser. Il server invia il codice HTML al parser, che poi esegue la scansione attraverso la pagina, alla ricerca di tag e il testo. Esso controlla il file per assicurarsi che ha tag HTML e nel giusto ordine; altrimenti può essere un file Acrobat o qualche altro tipo di documento. Se l'autore ha preparato la pagina di mano, potrebbe aver commesso degli errori nel codice HTML, che porta il parser di respingerla. Se la pagina estrae, il parser prende lo distingue in base alle leggi di HTML. Il parser poi organizza, visualizza e spigola informazioni dalla pagina web.

browser

L'intenzione originale del Web è stato quello di rendere le pagine leggibili, e questo è ciò che fa di un browser. Si analizza il codice HTML e crea una visibile, pagina formattata dal suo contenuto. Il browser sa quando per rendere il testo più grandi di altre, come mostrare collegamenti Web e come visualizzare le immagini. Quando il browser finisce di creare la pagina, si attende che l'utente a cliccare con il mouse, tipo di testo o eseguire qualche altra azione. Se l'utente fa clic su un link o tipi un indirizzo, il browser preleva un'altra pagina Web.

Crawling Web

siti di ricerca Web come Google, Bing e Ask hanno programmi che eseguono la scansione automaticamente l'intero web, alla ricerca di nuove informazioni. Questi cosiddetti "Web crawler" leggere una pagina Web, catalogo il testo e verificare la presenza di collegamenti ad altre pagine. Per trovare i link e altre informazioni importanti, i programmi di web crawler analizzare l'HTML. A differenza di un browser, tuttavia, non vengono visualizzate le pagine su uno schermo.

Screen scraping e spam

I programmatori scrivono parser HTML per una varietà di scopi. Alcuni estrarre automaticamente i dati del report tabellare da siti Web, altri raccolgono le immagini. I programmatori chiamano questo "screen scraping", come gli estratti di programma, o "graffi" i dati dalla pagina Web e raccoglie. Una pratica illegale denominata "spamming" comporta un parser Web automatico che esamina le pagine di indirizzi e-mail, che il parser può facilmente identificare. Una volta che il parser estrae l'indirizzo, si aggiunge al database del spammer. Altri programmi poi inviare automaticamente messaggi di vendita e-mail, o "spam", per l'indirizzo. Per evitare che la vostra casella di posta inondata di messaggi di vendita, non inserire un indirizzo email su pagine Web accessibili al pubblico.