Come estrarre le voci provenienti da più Fasta

August 12

Come estrarre le voci provenienti da più Fasta


FASTA è un formato basato su testo utilizzato in bioinformatica per rappresentare sequenze, soprattutto quelli di nucleotidi e peptidi, con coppie di basi rappresentate da una singola lettera. Una sequenza FASTA consiste di una descrizione linea singola, contraddistinto da una "maggiore di" simbolo sulla prima riga, seguito da una linea multipla nucleotide o sequenza peptidica. È possibile estrarre più sequenze da un file FASTA con moduli speciali, o add-on, per il linguaggio di programmazione Perl, noto come Bioperl, che sono stati appositamente sviluppati per gestire il formato FASTA. È inoltre possibile codificare manualmente uno script Perl per abbinare i modelli in un file o utilizzare altri strumenti disponibili per estrarre le sequenze FASTA.

istruzione

1 Avviare l'applicazione editor di Perl. È possibile utilizzare un editor di testo semplice, ad esempio Blocco note. Sarà necessario salvare il file con estensione ".pl" per indicare che si tratta di un programma Perl.

2 Estrarre una sequenza da un file di più FASTA eseguendo pattern-matching in Perl, digitando il seguente codice nell'editor:

! / Usr / bin / perl

il mio $ fasta_seq = shift;
il mio $ sequenza = shift;
il mio $ workfile = cat $ fasta_seq ;
la mia ($ fasta_seq) = $ file di lavoro = ~ / (> $ sequenza [^>] +) / s;
print $ fasta_seq;

3 Estrarre le sequenze dal file FASTA con Bioperl. È possibile estrarre più sequenze digitando il seguente codice nell'editor:

! / Bin / perl -w

usare Bio :: SeqIO;

$ Sequenceobject = Bio :: SeqIO-> nuovo (-file => "fasta_file_path", -format => "fasta");

Il Bio :: modulo SeqIO prevede l'elaborazione di sequenza senza soluzione di continuità. È possibile recuperare una singola sequenza utilizzando la seguente dichiarazione:

$ Retrievedsequence = $ sequenceobject -> next_seq;

È un ciclo tra l'oggetto e possibile recuperare più sequenze, come segue:

while ($ retrievedsequence = $ sequenceobject -> next_seq)
{

print $ retrievedsequence ->seq,"\n";

}

4 Estrarre le sequenze dal file FASTA utilizzando l'applicazione "Biopieces", che è quadro che contiene un insieme di strumenti modulari per la manipolazione dei dati di bioinformatica. Si esegue il vostro comando Biopieces nella riga di comando.

read_fasta -i fasta_file | afferrare sequenza -p | write_fasta -o sequence_file -x

Questa è una buona opzione se non siete molto tecnicamente inclinato, come il quadro racchiude gran parte del lavoro di programmazione necessario per elaborare il file FASTA e l'uscita delle sequenze corrispondenti.