Come aggiungere ODP Dmoz dati al tuo sito

February 21

Oltre ad essere un posto comodo per trovare nuovi siti web, il progetto DMOZ Open Directory (ODP) è un sito community-driven di dati aperti. Ciò significa che i dati è disponibile nella sua forma grezza in un libero - come in libertà e pari a zero prezzo - licenza per l'uso e aggiungere al proprio sito. Finché hai qualche conoscenza di programmazione di computer, è possibile aggiungere i dati di ODP al tuo sito con relativa facilità.

istruzione

1 Scegli una categoria che si desidera visualizzare sul tuo sito. Il progetto DMOZ Open Directory è enorme - ci sono migliaia di categorie e centinaia di migliaia di siti da cui scegliere. La scelta di un piccolo, categoria focalizzato è importante.

2 Passare alla RDF (Resource Description Framework) l'indice di DMOZ nel browser web (vedi Risorse). Questa pagina non è la stessa home page DMOZ Open Directory. Si tratta di un elenco di directory non-grafica-intensivo di tutti i loro dati a disposizione del pubblico.

3 Scarica "categories.txt" facendo clic destro sul link "categories.txt" e selezionando "Salva collegamento come ..." Questo è un elenco di ogni categoria. Anche se la maggior parte sono file di testo (o gzip compressi file di testo), la maggior parte sono estremamente grande e non è consigliabile si tenta di aprirli nel browser web.

4 La ricerca in questo elenco con la funzione di ricerca di un editor di testo o semplicemente navigando il file. Mantenere il file per riferimento futuro, come si può anche usare questo per generare un link per le directory DMOZ o convalidare nomi delle directory.

5 Scarica "content.example.txt" facendo clic destro su "content.example.txt" e selezionando "Salva collegamento come ..." Il file XML è un esempio del formato elenchi di directory e può essere letto da qualsiasi linguaggio di programmazione o strumento con capacità di analisi XML.

6 Si noti che ogni sezione "Tema" nel file contiene un elenco di link a pagine correlate. In ogni sezione "Tema" è un numero di sezioni "ExternalPage" che contengono più dati circa i collegamenti elencati nella sezione "Tema". I dati comprendono informazioni quali titolo e la descrizione del link.

7 Scarica i dati completi. Fare clic destro su "content.rdf.u8.gz" e selezionare "Salva collegamento come ..." Questo file è estremamente grande - non compresso può essere grande come 1 gigabyte. Perché è così grande e occupa così molte delle risorse del computer, essere sicuri che non risulta essere completamente e correttamente. Potrebbe non essere necessario per decomprimere il file, in quanto sarà compresso durante il processo di analisi.

8 Filtrare i dati. È probabilmente solo desidera aggiungere una piccola quantità di questi dati al vostro sito, ma al fine di filtrare lo avrete bisogno di qualche conoscenza di programmazione (o aiuto) e strumenti di base UNIX.

9 Scrivere un programma in un parser XML stream-oriented e un linguaggio di query (come XPath) per acquisire solo i dati che si desidera. Per esempio, se si voleva ottenere tutte le recensioni di film per il film "Il 13 ° guerriero" dai dati, si prende tutti i tag Argomento cui R: campo ID è "Top/Arts/Movies/Titles/1/13th_Warrior,_The" così come tutti i tag ExternalLinks cui campo argomento è lo stesso.

10 Scrivi il tuo programma per prendere il flusso XML su stdin al fine di utilizzare il file di dati compressi. Utilizzare un comando simile al seguente:

gunzip content.rdf.u8.gz | ./my_filter_program

11 Incorporare i dati nel vostro sito. Se il sito è sceneggiato, questo può essere un processo automatizzato. Ora che avete una lista di link in un piccolo file XML, è possibile analizzare il file in fase di esecuzione per generare un elenco di link o copiare e incollare l'elenco di link nel tuo sito web.

12 Automatizzare il processo. Il progetto DMOZ Open Directory è un progetto in corso. Link muoiono e vengono rimossi e nuovi collegamenti vengono aggiunti. Quando le modifiche al database, è meglio avere l'intero processo automatizzato in un file di script in modo al fine di aggiornare l'elenco dei collegamenti, è sufficiente eseguire nuovamente il file di script.

Consigli e avvertenze

  • Un parser XML stream-oriented (o parser "SAX") è necessario a causa delle dimensioni del file. Un parser DOM XML non può essere utilizzato in questo caso, in quanto richiederebbe molti gigabyte di RAM e un parser stream può fare la stessa cosa.