Come convertire i tag HTML con testo normale in C #

May 3

La pagina Web che si vede nel browser non mostra tutto sulla pagina. Dietro le quinte, il browser carica costantemente contenuti che contiene il codice HTML criptico. Questo codice è costituito da "tag", come "<p>". Questo tag indica al browser di visualizzare un paragrafo nella pagina Web. Usando C #, linguaggio di sviluppo di Microsoft che funziona con Visual Studio, è possibile convertire HTML di qualsiasi sito al testo e rimuovere questi tag.

istruzione

1 Avviare Microsoft Visual Studio. Fai clic su "File" e poi su "Nuovo progetto".

2 Fai clic su "Visual C #" per evidenziarlo, e fare doppio clic su "Applicazione Windows Form." Visual Studio verrà creato un nuovo progetto e visualizzare un modulo vuoto nella finestra di progettazione.

3 Fai clic su "Visualizza", e quindi fare clic su "Strumenti" per aprire la casella degli strumenti. Scorrere verso il basso per il controllo WebBrowser, e fare doppio clic su di esso. Che il controllo apparirà sul modulo. Studio nomi visivi IT "WebBrowser1".

4 Premere il tasto "F4". Si apre la finestra "Proprietà". Individuare l'icona "Lightning Bolt" nella parte superiore della finestra. L'icona ha la forma di un fulmine. Fare clic sull'icona. La finestra "Proprietà" viene visualizzato un elenco di eventi che è possibile allegare al controllo "WebBrowser1".

5 Individuare la voce "DocumentCompleted" nella lista e fare doppio clic su di esso. Una finestra del codice apre e visualizza il seguente codice:

private void webBrowser1_DocumentCompleted (object sender, WebBrowserDocumentCompletedEventArgs e)

{

}

Questo codice viene eseguito ogni volta che il controllo "WebBrowser1" termina il caricamento di una pagina Web.

6 Modificare il codice in modo che assomiglia a questo:

private void webBrowser1_DocumentCompleted (object sender, WebBrowserDocumentCompletedEventArgs e)

{

HtmlDocument doc = webBrowser1.Document;

stringa websiteText = doc.Body.InnerText;

MessageBox.Show (websiteText);

}

Dopo una pagina Web carica, questo codice afferra il testo dalla pagina. E 'quindi visualizza il testo in una finestra di messaggio pop-up.

7 Pulsante destro del mouse in qualsiasi punto della finestra del codice, e quindi fare clic su "Visualizza finestra di progettazione." Il modulo riapparirà nella finestra di progettazione.

8 Fare doppio clic sulla barra del titolo che di forma. Un'altra finestra del codice apparirà e visualizzerà il metodo "Carica" ​​del form. Il codice in questo metodo viene eseguito quando il modulo viene caricato. Il codice appare come illustrato di seguito:

Private void Form1_Load (object sender, EventArgs e)

{

}

9 Sostituire il codice con il seguente codice:

Private void Form1_Load (object sender, EventArgs e)

{

sito web della stringa = "http://www.whitehouse.gov";

WebBrowser1.Navigate (sito web);

}

Questo codice fa sì che il controllo "WebBrowser1" per passare alla URL del sito web memorizzato nella variabile denominata "sito web". In questo esempio, l'URL è "http://www.whitehouse.gov."

10 Premere il tasto "F5" per eseguire il codice. Il modulo verrà caricato ed eseguire il codice "Form1_Load". Questo codice fa sì che il controllo "WebBrowser1" per navigare sul sito web "whitehouse.gov". Il codice "DocumentCompleted" verrà eseguita dopo che il browser termina il caricamento quel sito. Una finestra di messaggio pop-up vi mostrerà il testo da quel sito, senza i tag HTML.

Consigli e avvertenze

  • In questo esempio, il controllo "WebBrowser1" naviga al sito Whitehouse. Sostituire l'URL con qualcosa che ti piace. Ad esempio, per convertire i tag HTML e mostrare il testo per "http://www.xyz.com", impostare il valore della variabile chiamata "sito web" a quella URL. Tale variabile è nel metodo Form_Load, come mostrato nella seguente procedura.